教育测量与评价论文精选(九篇)

前言：一篇好文章的诞生，需要你不断地搜集资料、整理思路，本站小编为你收集了丰富的教育测量与评价论文主题范文，仅供参考，欢迎阅读并收藏。

教育测量与评价论文

第1篇：教育测量与评价论文范文

关键词：高校教师；科研生产力；测量指标：对比研究

随着知识经济时代的到来，科学技术和创新能力已成为国家间竞争的核心要素。高校作为国家科技创新体系的重要组成部分，扮演着越来越重要的角色。作为科研生产活动的主体，高校教师的科研生产力在很大程度上影响着高校整体的科研产出水平和创新能力。

因为科研产出具有不确定性（即较多的投入并不一定能够获得相应的产出结果，在自然科学研究中表现得尤为明显）、多样性、连续性（即本期的研究成果可能会影响下一期的项目申请）、直接传播性、社会影响深远性等，所以，教育界对于高校教师科研生产力的测量指标莫衷一是。

一、概念界定

科学研究是科学工作者生产知识、应用知识的活动，这种活动属于高度社会化的一般劳动，使人类拥有认识和改造自然的巨大力量，反映了人与自然的关系，应该归属于生产力的范畴。学者赵红州认为，社会的科学能力应该属于特殊的生产力，也就是科学领域的生产力或科研生产力。谢彩霞等人指出，科研生产力由科研生产要素构成，整个科学研究过程离不开科研生产要素。姚东瑞进一步指出，科研生产力作为科学研究活动的一种产出能力，既包括通过发现、创造而实现创新理论、生产知识与发展科学的能力，又包括通过整合和应用而实现技术创新、知识运用和转化的能力。叶钟灵就美国对科研生产力的评价指标进行了综述，按研究开发工作的成果进行统计，常见的指标有专利发明数、论文出版数、成果得奖数、论文引述数等。科研生产力是科学劳动社会化的必然结果，结合已有研究，本文中的科研生产力是指科学研究活动的产出能力，具体表现在产出的数量和质量上。

二、文献综述

（一）数量测量

从国家层面上看，国外对高校教师科研生产力的评价非常重视，尤其是美国和英国。美国主要是从教学、科研以及服务三个方面对高校教师进行评价，其中科研评价包括学术研究和科研项目。学术研究包括举行学术报告、展览，发表学术论文、专著，申请专利等；科研项目包括开展各级政府部门的纵向基金项目研究，为社会上的公司、企业进行人员培训，提供技术服务等。英国对高校教师的科研评价也比较系统，设有英国大学科研评价体系，由专家组按照统一的标准，依据达到国内或国际先进水平的成果数量，将评价结果分为七个等级同。澳大利亚科研评价体系则包括文献计量指标和非文献计量指标。文献计量指标包括出版物（赋有权重）、引用、展现科研特色的结构指标（包括出版物的领域分布、合作级别、科研类别）。非文献计量指标包括常用非文献计量指标（科研人员数量、科研时间、外部资金、研究生数据、荣誉和奖励、演讲、国际访问），适用于人文社会科学的非文献计量指标（与校外机构的研究合作产生的方案以及合作发表的出版物、参与大学管理、为社会提供学术服务等），以及适用于创造性艺术学科的非文献计量指标（舞蹈家、演员、音乐家、剧作家在公开场合的表演，建筑师和设计师的建筑或者创造等）三个方面。

国外研究者认为，虽然用出版物的数量来衡量高校教师的科研产出有诸多局限性，但是从数据的可得性以及可靠性出发，出版物的数量是一个很好的评价高校教师科研产出的指标。出版物主要指发表的论文和所著专著两个方面。

国内学者在测量高校教师科研生产力时，也倾向于采用出版物的数量作为重要指标，但是，考虑到学科性质的不同以及科研产出的多样性，在借鉴国外经验的同时，国内学者对高校教师科研产出的测量指标做了进一步整理，主要从指标分类、指标筛选两个方面进行。他们认为，科研产出主要表现为学术专著、、专利授权、成果鉴定、技术转让等方面。

1.指标分类

有学者根据科技绩效评价产出指标性质，将指标分为源生指标、追加指标和派生指标三类。源生指标包括论文、专著、专利授权、成果鉴定、技术转让、人才培养等；追加指标建立在源生指标的基础之上，包括科技奖励、论著引证、文章被索引及摘录情况等；派生指标是建立在优秀的源生指标和优秀的追加指标基础之上的，包括学会、研究会、专业期刊的兼职、获得荣誉称号等。学者刘丹平、周建方等人采用层次分析法将高校教师科研能力评价指标体系分为目标层、准则层和指标层。目标层即高校教师科研能力评价，准则层包括科研项目、科技成果、论文、论著、专利与著作权、科研综合能力6个方面，指标层包括国家级科研项目、省部级科研成果、三大检索论文、学术专著、发明专利、专业创新能力、学科建设和团队合作精神等24项。

2.指标筛选

在各类指标中可能存在一些次要的评价指标，因此，需要对这些指标进行筛选，分清主次。通常使用的筛选方法主要有系统分析法、文献资料分析优选法以及应用数理统计法等。靳希、张火春和姚力等人在总结国内外有关业绩考核工作经验的基础上，根据专业技术人员业绩考核的目的，高校教师从事科研工作的特点以及模型设计的基本原则，建立了教师业绩考核的指标体系。这个体系包括研究任务、科研专著、科技论文、鉴定科技成果、获奖科技成果、专利成果以及研究效益7项指标。在这7项指标的基础上，根据科研绩效定量评价体系的设计原则，贺天伟和张景林增加了培养人才这一指标。郑秀才从承担的科研任务和取得的科研成果两个方面综合设定了高校教师科研绩效评价指标：科研项目及经费、科研论著（期刊和专著）、科技成果（专利等）、科技成果应用、科技成果获奖。胡金秀、周国强等人从纵向科研立项、科研经费、成果鉴定、科技奖励、学术论文、专利及计算机软件、著作、对合作完成科研业绩的分配这几个方面来考察科研绩效。胡俊在分析了国内外教师科研业绩以及高校教师科研特点的基础上，建构了包括学术论文、著作、鉴定成果、技术转让等在内的新的指标体系。

为使对高校教师科研生产力的评价科学、合理、全面、有效，在已有研究的基础上，学者们进一步完善了科研生产力的评价指标体系。刘仁义选定以下指标作为科研产出指标：学术论文，学术著作，专利申请与授权，科技成果鉴定，研发成果应用和其他科技服务，人才培养，科技奖励，论著被引、被索及被摘，学术兼职，纵向项目，纵向科技经费，排名与贡献率，这些指标下又分二级指标，以计算教师的科研产出。吴小妹通过专家访谈和问卷调查的方式，对高校教师科研能力指标框架进行了修正，其中，科研产出指标又分为、发表专著、获取专利、获得奖项、研究报告、项目资助6个二级指标，这6个二级指标下又分论文级别、作者排名、出版社等级、专著字数等15个三级指标。张宏琴在对当前国内许多高校正在使用的评价体系进行考察的基础上，提出了科学研究指标、成果指标、学术论文指标、人才培养情况、社会工作情况（指学术讲座、党政职务）等适用于教学研究型大学的高校教师科研绩效评价指标体系。

（二）质量测量

国外学者考虑到出版物之间存在着质量差异，高校教师在一本引用率很高的期刊上发表文章和在一本几乎没有人引用的期刊上发表文章所付出的努力和时间是不同的，因此，仅以出版物的数量来衡量高校教师的科研产出是片面的。于是，不少学者在计算出版物数量的基础上增加了期刊质量权重以及文章引用率，英国学者杰兰特·琼斯和吉尔·琼斯为了区分文章的质量，将出版物分为学术期刊上的论文、学术期刊上的书信、专业期刊上的文章、流行杂志上的文章、专著、书籍、官方报告、对编辑工作的贡献8类。还有学者认为，不同的学科面临着不同的文章发表的竞争压力，因此，不同学科学者的发表文章数量应该用竞争压力进行修正。而竞争压力可以用与该学科相关的期刊提供的空间和教师的发表需求之间的比值计算。

国内学者也意识到了这个问题，在对高校教师科研生产力测量的指标进行层层筛选后，国内学者考虑到各个指标对科研生产力评价结果的贡献大小不同，设计了各个指标的权重。确定权重系数的方法通常有三种：主观赋权法，如德尔菲法、同行评议法、强制打分法等；客观赋权法，如熵值法、层次分析法等；主客观结合赋权法，如高太光、陈培友采用的群决策特征根法（专家评后进行量化评价）计算教师科研产出评价指标权重。

第2篇：教育测量与评价论文范文

科技教育活动作为素质教育理念施行的重要手段之一，是以实践项目为载体，以发展学生的科学精神、知识与技能、方法与能力、行为与习惯为目的的教育活动。长期以来，一线教育工作者在组织科技教育活动时，往往面临着度浅（活动研究深度不够）、面窄（活动参与人数较少）等诸多的困扰。根据“多元智能理论”“丰富教学模式”的指导，针对不同智能类型、不同能力水平的学生设计不同方向、深度的项目活动，可以在一定程度上解决上述困扰。下面，我们以“多层次城市夜空光度测量科技教育活动”为例，谈谈如何基于项目来实施分层次的科技教育活动。

一、活动背景

光污染是继水、气、声和渣污染之后的一种新型污染，主要包括白亮污染、人工白昼和彩光污染。光污染的影响首先在于破坏天文观测环境，历史上天文台因此而被迫搬迁的案例屡见不鲜。英国格林尼治天文台早在1948年就为躲避光污染和大气污染而迁往东南沿海环境优美、观测条件更好的赫斯特蒙苏堡地区。在美国、加拿大、日本、西班牙、葡萄牙等国，多个著名天文台都曾几次迁址。我国紫金山天文台的观测工作也全部转移到了其他观测站点，紫台园区则已改建为天文博物馆，以天文科普和天文旅游为主，仅保留了少量与太阳观测有关的科研工作。

光污染的影响其实并不局限于天文观测。居高不下的学生近视率、迷途的海龟幼崽、撞上玻璃幕墙的飞鸟、爆发性增殖的水藻、能源紧缺与气候变暖，这些看似并无关联的人与事，其实背后都与灯光之扰息息相关。

作为长三角地区的重要城市之一――无锡的光污染较为严重。在距市中心三阳广场约6.2公里远的天一中学校园里，天空是白的是灰的是橙的是多彩的，北斗七星中的天权是看不到的，狮子座的镰刀是认不全的……在距三阳广场16.9公里远的斗山山顶，连仙女座大星系M31和猎户座大星云M42都仅能勉强分辨，山脚下的路灯和远近城镇的光源清晰可见，天空泛着浅浅的灰白色……在与市区间隔有10公里的太湖十八湾地区竟连天顶附近的银河都彻夜不现，三角座星系M33也必须要通过双筒镜才能被观察到……

为提高学生及公众对光污染的认识，学校针对性地引进了一批测光仪，并依托天一天文社加贺谷穰工作室（文化宣传部）、达盖尔工作室（学术委员会）、伽利略工作室（普及委员会）和斯科特工作室（项目办公室），设计了“多层次城市夜空光度测量科技教育活动”，策划并实施了多个文宣、教育、科普和研究性项目。

二、活动目标

知识与技能：

1.理解夜空光度、光污染的概念，了解导致夜空光度增大的主要原因。

2.掌握夜空光度分级的方法，并能运用器材测量夜空光度值。

3.了解背景光对天文观测的影响，

学会设计反映此原理的科普实验。

过程与方法：

1.开展观星活动、光污染摄影与夜空光度测量活动，掌握天文观测及夜空光度测量的基本方法。

2.了解策划、组织活动的过程，学会科学研究的一般方法，实验设计的一般结构。

情感、态度和价值观：

1.了解城市对自然地理环境的改变，不合理的城市亮化带来的环境问题，敢于解决问题。

2.在活动中，提升科学素养，发展科学思维、合作创新精神。

三、参与对象与活动形式

活动对象以天一天文社社员为主体，包括国际分社约40人，少年分社约40人，高中分社约70人，荣誉分社约20人。此外，还包括无锡市中小学天文联合会（锡天联）下属成员学校约150人，以及其他相关单位的学生约300人。

活动主体――天一天文社社员参与了“多层次城市夜空光度测量科技教育活动”的全部项目、环节的活动，包括项目研究、实验设计、科普观测和摄影活动。锡天联成员学校、无锡市少年宫等其他相关单位的学生主要参与了科普观测和摄影活动。

四、活动的重点、难点、创新点

活动重点：搭建天文研究平台，以光污染研究为抓手，调动学生积极性，让更多的学生参与到天文活动中来。

活动难点：城市夜空光度测量研

究，光污染相关实验设计。

活动创新点：由中学发起并组织

的使用国际顶尖测光仪对城市进行高覆盖度的夜空光度测量研究，夜天光监测站点建设在世界范围内都具有唯一性；由中学生开展科普实验设计与教材编写同样具有开创性；以光污染为主题的摄影大赛在当今世界也是少见的。

五、可利用的各类科技教育资源

1.技术指导：中科院紫金山天文台科普部、北京师范大学天文系高爽老师、国家天文台刘博洋博士等以技术顾问的身份，参与了“城市夜空光度测量”的相关活动指导。此外，南京大学、中国科技大学、北京天文馆的专家教授们也曾多次来校指导天文课程建设。

2.团队建设：锡天联成员学校、无锡市少年宫等作为天一天文社紧密的合作伙伴，不仅为开展与夜空光度相关的科普活动提供了场地与学生支持，而且还有一批教师参与共同开展天文教研活动，形成了教研团队。

3.资金支持：天一中学为开展天文教育投入了大量的资金，已多批次采购天文实验器材如望远镜、测光仪、相机、野营设备、图书等，并已建设完成天文创新实验室一间；天文创新实验室作为学校“STS综合创新课程基地”的重要组成部分，还得到了省市区各级教育部门的专项建设资金支持；锡天联成员学校、无锡市少年宫等单位也配套投入了相关的天文基地建设。

六、活动内容

“多层次城市夜空光度测量科技教育活动”的全部项目、环节的活动，包括项目研究、实验设计、观测实践和摄影活动等多个层次，分别由天一天文社斯科特工作室（项目办公室）、伽利略工作室（普及委员会）、达盖尔工作室（学术委员会）和加贺谷穰工作室（文化宣传部）等四大工作室具体负责。表1为各工作室的智能类型列表。

（一）主题活动一：城市夜空光度测量（项目研究）

1.选题背景及意义：

无锡作为长三角地区的重要城市之一，经济发达，城市光污染情况总体比较严重，但是不同区域的污染程度也存在明显差异。夜空光度是衡量城市光污染程度的重要指标，通过使用专门的测光仪器，对无锡城区进行高覆盖度的光度测量，从而了解无锡城区整体的污染程度，不同区域的污染水平差异，以及分析光污染产生的背景，并尝试提出防治的建议，有利于提高公众对光污染的认识，也能为城市管理部门在优化城市灯光设置时提供参考。

2.活动过程和步骤：

（1）编写《无锡市夜空光度测量指导》方案。指导学生收集、整理与夜空光度测量相关的研究论文及其他材料，对“光污染”“夜空光度”等概念进行界定，并组织编写《无锡市夜空光度测量指导》方案，就测量时间、地点、方法及报告填写的格式予以统一规范。

（2）撰写开题报告。指导学生撰写《无锡城市夜空光度测量》开题报告，对研究背景、要解决的问题、选题意义及研究价值，核心概念的界定、相关现状、参考文献，研究目标、研究内容、研究假设，研究思路、研究计划，预期成果等内容进行项目论证。经论证后的项目被中国教育学会地理教学专业委员会研究性学习课题专家组立项。

（3）开展测量活动。指导学生开展城市夜空光度测量活动，具体步骤有：

①仪器编号：为支持本课题组

的研究工作，学校从加拿大购置了9台SQM测光仪，并予以编号（以分辨仪器本身存在的机械误差）。

②路线设计：将无锡市区划分为

不同的片区，并设计好测光的具体行

进路线和测光任务。

③实地测量：将课题组成员分成不同的小组，每组由3人组成，分别负责仪器操作、数据记录和坐标定位，每个坐标点测5个数据，以减小误差。

④数据处理：将测光所得的数据（经度、纬度、时间、测光值）输入EXCEL表格，进行误差分析，取平均值，得到各坐标点夜空光亮度的最终值。

（4）撰写结题论文。指导学生根据开题报告中预期成果的要求对收集的数据进行不同角度的分析，并将结论撰写成结题论文《无锡城市夜空光度测量研究》。结题论文主要结构包括：夜空光概述，测量仪器及方法，数据分析及测量结果（数据测量与分析步骤、夜空光亮度的地区分异、夜空光亮度的地区变化、夜空光亮度的地平高度及方位分异、夜空光亮度的时间变化），反思及讨论等。于2015年第4期《地理教学》杂志。

3.活动效果及呈现方式：

活动进行过程中及之后，我们得到了诸多媒体的关注：指导教师受邀赴上海复旦大学为2015年第六届全国天文社团发展论坛作了《也谈高中天文社团建设》的专题报告，赴江阴为2015年第二届无锡市高中生峰会作了《城市天文学》的专题报告。项目组还收到了国际天文学联合会普及工作委员会及香港大学物理系的邀请函，受邀加入国际夜空光度监测网络并赴香港大学开展项目交流与培训。

在前期活动的基础上，天一天文社发起成立了锡天联、无锡城市夜空光度监测网络两个组织，吸引了南菁中学、青阳中学、山明中学、旺庄实验小学等多家单位参与，将在无锡建设若干城市夜空光度监测站，并以此为抓手，开展进一步的天文教育活动。

（二）主题活动二：光学相关实验设计（科普实验）

1.选题背景及意义：

激发学生对科学的热情，培养并学习掌握科学研究的方法与技能是我国进行素质教育的目的之一。科学研究的方法和技能至少应包括：分析和观察周围世界的技能，发现问题、提出问题、作出假设、安排实验的技能，真实地记录观察结果与数据的技能，按照正确方法处理数据的技能。

天文因为不属于中小学必修课程而不被大多数学生所了解，中学阶段非常缺乏天文科普实验或科技制作的教学内容，非常有必要利用天一天文社的资源优势整理、设计一些科普天文实验或制作，这些源自我们身边的天文科学知识将极大地激发学生对天文的兴趣，增加他们对天文的认识，促进天文知识在基础教育阶段的普及。

2.活动过程和步骤：

（1）编写“光学相关实验设计”模板。指导学生学习《高中物理实验手册》等专业书籍，在此基础上，编写“光污染相关实验设计”模板：活动目标、概念与方法、材料准备、活动步骤、活动建议、活动拓展等，同时，设计一份样稿《在微光中辨认颜色》。

（2）开展“光学相关实验设计”。指导学生开展“光学相关实验设计”，具体步骤有：

①创意征集：发动学生提出光学

相关实验（及制作）设计的创意，组织人员从投稿的创意中精选可操作性较高的方案。

②方案编写：制订编写计划，并为课题组每一位学生分配编写方案（草案），指导他们根据模板和样稿的格式及要求进行方案编写。

③实验验证：将课题组成员分成不同的小组，每组2人，以小组为单位对所编写的方案进行实验验证。

（3）组织“光学相关实验设计”比赛。面向全校师生组织开展“光学相关实验设计”比赛，吸引对天文有兴趣、乐于动手实践的学生参加“在微光中辨认颜色”“彗星为什么长尾巴”“简易望远镜制作”等比赛，并评优颁奖。

（4）举办“光学相关实验设计”科普活动。面向锡天联成员学校、无锡市少年宫及无锡地区其他中小学、幼儿园开展“光学相关实验设计”科普活动，针对不同年龄阶段的受众举办光污染科普讲座或科普游戏。

3.活动效果及呈现方式：

学生编写的“光学相关实验设计”将被编入校本教材《中小学生天文学习指南3》，这是一本专门介绍天文相关科普实验及科技制作的教材，受众定位为中小学天好者及天文指导教师。

上述科普实验及科技制作被引入天文社“宇宙意识”少儿天文科普项目及“天文全球化”社区天文科普项目，作为寓教于乐的教学素材向少年儿童及社区的天好者推广。

（三）主题活动三：星空光害旅行团（观测实践）

1.选题背景及意义：

对业余天好者来说，观星是极大的乐趣所在。然而，严重的光污染正将灿烂的星空从我们身边

夺走。

为便于普通学生及其他业余天好者通过对比观测，直观地了解无锡各地的光污染情况，我们依托天一天文社组织的“天一观星营”项目，开展了“星空光害旅行团”活动，带领旅行团的团员们利用晚上的时间，去往锡城不同的地点，实地观测、考察并对比分析星星的数目，从而普及光污染的防治意识、夜空光度的概念。

2.活动过程和步骤：

（1）编写观测方案。指导学生编写观测方案，使用最常见的目视极限星等法，即通过肉眼能观察到的最暗星等来进行估算：选择2个或2个以上地平高度大于40°的定标天区，数出该天区内能观察到的恒星数目，与国际流星组织提供的表格对应来确定极限星等。同时，为便于零天文基础的团员参与，我们设计了简易观测法，请同学们观测标志性星座所在天区的恒星数量，来比较不同地点的光污染程度。

（2）开展观测实践。带领旅行团的团员们利用晚上的时间，去往无锡城不同的地点，实地观测、考察并对比分析星星的数目。具体观测过的地点有太湖广场、馨和苑广场、天一中学、斗山、保利广场、崇安寺广场、南禅寺广场、安镇高铁新城、太湖十八湾等。（见图9、图10）

3.活动效果及呈现方式：

通过“星空光害旅行团”活动，结识了一批无锡地区的成年及未成年业余天好者。以此为抓手，天一天文社发起成立了“无锡市业余天

好者协会”QQ群。以此活动为素材撰写的《星星都去哪儿了》发表在《天好者》杂志2016年第2期。

（四）主题活动四：光污染摄影大赛（文化艺术）

1.选题背景及意义：

为推动公众思考光污染在无锡及其所在社区的状况，让公众参与光污染活动，我们发起了“光污染摄影大赛”活动。邀请公众使用摄影设备捕捉各种光污染的画面，从而了解及思考无锡地区乃至全世界日益严重的光污染问题。比赛主题分为：光污染与生态、光污染与健康、光污染与能源、光污染的分布、光污染的来源等。评选标准主要有：摄影照片视觉美感、作品说明表达技巧、光污染意涵、手法创意等。

2.活动过程和步骤：

指导学生起草“光污染摄影大赛章程”，包括组织单位、大赛目的、比赛主题、参赛资格、参赛设备、照片格式、相关权益、比赛日程、评选规则等。

章程起草完毕后，通过锡天联官网、锡天联微信公众号（AUWS2015）、无锡市业余天好者协会QQ群（91462404）、牧夫天文论坛无锡天协专版等渠道向外比赛信息。

投稿截止后，组织专家对作品进行评审，并举办颁奖仪式。

3.活动效果及呈现方式：

通过光污染摄影比赛，一方面间接了解了无锡地区光污染的来源、分布情况，另一方面，在公众中对光污染进行了有效的宣传与普及。光污染摄影作品还被制作成海报，用于专题展览。

七、活动可能出现的问题及解决预案

1.项目研究中的技术问题：

考虑到光污染问题在大陆地区的研究仍处于起步阶段，即便在世界范围内也未引起足够的重视，我们在开展夜空光度测量时会遇到各种各样的技术问题。对此我们的解决方案主要是：

（1）开题报告与测量指南两个指

导性文件必须花大力气保证质量，保证指导性和可操作性。

（2）争取学校在测光仪采购上的

支持，以及年级组、班主任在学生活动时间上的支持。

（3）遇到实在难以解决的技术问题，请教中科院紫金山天文台等相关研究机构。

2.科普实验中的素材问题：

中学生的专业知识储备毕竟是有限的，对生活的观察能力也仍有待提高，这直接导致了科普实验素材的缺乏。对此我们的解决方案主要是：

（1）大量、深度阅读中小学阶段及国外的实验手册，学习实验编写的一般结构，积累与光学相关的实验和科技制作素材。

（2）通过天文科普书籍和天文历

史故事，寻求实验和科技制作素材。

（3）面向全校发起光污染相关实

验和科技制作素材的征集活动。

3.观测实践中的安全问题：

夜间开展天文观测实践活动遇到的最大挑战是人身与财产安全问题，很多学生、家长或教师不支持天文活动也主要是对此有深深的顾虑。对此我们的解决方案主要是：

（1）与参加活动的学生签订合同，

并要求学校同意、学生签字、家长签字。

（2）统一、强制购买意外险，分担风险。

（3）与有资质、口碑好的旅行社合作，联系包车或食宿。

（4）对每一个观测地点进行事先

的实地探访，确保观测地的安全性，远离陡坡与水体。

4.摄影大赛中的发动问题：

摄影大赛看似简单，就是摁一下快门的事。但真正要发动公众参加，激发大家的热情却并不是一件简单的事。对此我们的解决方案主要是：

（1）通过锡天联成员学校的天文

指导教师，发动学生中的天好者参赛。

（2）通过官网、微信公众号、QQ群等网络平台推送摄影大赛比赛通知。

（3）积极联系赞助，为获奖选手准备证书、奖杯及奖品。

八、效果评价标准与方式

在评价的过程中，坚持“主体多元”“方式多样”“向度多维”等原则。

1.主体多元：

在活动过程中，要求学生首先进行自评和互评，不同组别之间也可以进行他评。这有利于加深学生对评价标准的认识与理解，可以促进学生自我反思和自我发展。教师在此基础上，对学生自评、互评及他评进行再评价，保证了评价的指导性。

2.方式多样：

在活动过程中，灵活运用即时评价与延时评价。即时评价有利于表扬先进，纠正缺陷；延时评价则体现了尊重、关爱与期待。此外，还将口头评价与书面评价，一次评价与多次评价，诊断性评价、过程性评价与终结性评价等多样化的评价方式相结合，以保护学生的积极性，强化学生的成就感。

3.向度多维：

第3篇：教育测量与评价论文范文

关键词：认知诊断理论；认知诊断模型；测验编制；效度；应用

当前大部分测验只能提供单一的测验总分或能力值，但是具有相同分数或能力值学生的认知结构（或称知识状态）可能不同，因此，对他们采取的教学补救措施是不一样的。由此产生了一个很重要的问题：如何才能精确地测量出学生的知识状态呢？认知诊断理论能够回答该问题。

一、认知诊断的发展

理论和实际需求推动了认知诊断的快速发展。理论上，认知诊断的计量模型可以提供一个有效机制来验证认知理论；实践中，美国政府于2001年提出的《不让一个孩子掉队》的法案更是促进了认知诊断的蓬勃发展。其实早在20世纪80年代，就已经有众多学者开始注重认知科学和心理测量学的结合对教育领域的指导作用。Glaser曾批判传统的教育测验缺乏对被测心理特征的关注[1]，Snow和Lohman在其编写的《认知心理学对教育测量的影响》中曾预测，教育测验可能会要求提供更多的学习诊断及教学指导信息。Nichols首次将认知科学和心理测量学的结合称作认知诊断评估，并在1995年出版专著《认知诊断评估》，从而使得该名称沿用至今[2]。Stout认为在21世纪，认知诊断将会成为新的测验范式[3]，并得到广泛的研究。许多认知诊断研究者先后出版专著，从各个角度详细地介绍了认知诊断理论及其应用，其中包括：Leighton和Gierl在2007年出版的《教育认知诊断评估：理论及应用》[4]，Tatsuoka于2009年出版的《认知评估：规则空间简介》[5]，以及Rupp等人于2010年出版的《诊断测量：理论，方法及应用》[6]。

近几年国际和国内更是掀起了认知诊断的研究热潮。2012年9月在南昌举办的第十届海峡两岸心理与教育测验学术研讨会出版了专著《认知诊断理论、方法与应用》，对国内的认知诊断研究起到了极大的推动作用。作者仅在CNKI输入“认知诊断”关键词查询所有期刊后，就得到了23835条结果，而且呈逐年递增趋势，可以看出认知诊断研究正在蓬勃发展。

二、认知诊断的相关理论

认知诊断理论主要包含Q矩阵理论及认知诊断模型（CDM）两部分，下面分别对这两部分进行介绍。

（一）Q矩阵理论

Q矩阵理论的先驱是Tatsuoka教授，她认为Q矩阵理论欲确定学生不可直接观察的知识状态，并且运用可以直接得到的观察反应模式（ORP）表示这些知识状态[7]。学生的知识状态由属性向量表征，“属性”表示测验项目的特征，是学生正确解决特定项目所需要的认知加工能力和技能[8]。一个完整的Q矩阵理论包含：属性层级结构（AHS）、邻接矩阵（A）、可达矩阵（R）、缩减矩阵（Qr）、学生Q矩阵（Qs）、测验Q矩阵（Qt）及期望反应模式（ERP）[9]。下面用一个具体例子对Q矩阵理论进行详细阐述。图1为假定的关于某份认知诊断测验的属性层级结构。

如图1所示，该份测验界定的6个属性之间存在层级关系。例如，属性1是属性2和4的先决条件，即掌握属性2之前必须首先掌握属性1。这种层级关系是必要的，比如掌握乘法之前，必须先掌握加法。根据图1所示结构，可以得到邻接矩阵A阵，它是描述属性间直接关系的矩阵，图1的A阵如表1左侧所示。由A与同阶单位阵I的和A+I，通过Warshall算法可得到可达矩阵R阵，它是描述属性间直接、间接以及和自身关系的矩阵，如表1所示。

注：A1-A6表示图1中的6个属性，“1”表示存在关系，“0”表示不存在关系

在得到R阵之后，可以通过删除法[7]或扩张算法[10]导出所有可能存在的项目类别，即在图1所示的属性层级结构之下，一份测验能够编制出来的题目类型，记作缩减矩阵Qr阵，行代表属性，列代表项目类。在图1所示的层级结构下，最多只能出15种类型的题目，如表2所示。

将Qr矩阵转置并加上一列全0向量（代表该学生一个属性都未掌握）即可得到图1下所有可能的知识状态的集合，共有16种知识状态。

测验Q矩阵，即Qt矩阵是由Qr阵的列自由组合得到，但有一点十分关键，即自由组合中必须包含R阵，这样才能使学生的知识状态与期望反应模式一一对应[11]，换句话说，Qt矩阵中必须包含R阵，才能保证对学生知识状态评估的精确性。

期望反应模式指学生在不存在任何失误和猜测的情况下对题目的作答反应模式，即学生掌握了题目考察的属性就能答对该题，只要有一个属性未掌握就答不对该题。但现实中，学生在作答时或多或少都会存在一些失误或猜测，因此，期望反应模式是一种理想化的反应模式。

对上述概念进行串联之后，我们可以通过图2来理解Q矩阵理论：

（二）认知诊断模型

测验施测后，只能得到学生的作答数据，要想得到学生的知识状态，就需要使用认知诊断模型进行估计。目前开发出来的认知诊断模型已达100多种[12]。下面仅简单介绍几个比较常用的认知诊断模型。

1.线型逻辑斯蒂克特质模型（LLTM）

Fischer提出的LLTM模型是认知诊断模型的雏形[13]，它是在Rasch模型的基础上改造而成的，其模型为：

，其中θi是学生的能力参数，bj是题目的难度参数，qjk是属性k在题目 j上的复杂度计分， K为测量到的属性个数，ηk是属性k的复杂度权重，d是标准化常数。LLTM用属性复杂度的线性组合表征题目难度，属性对题目的贡献越大，则题目的难度也越大。

2.规则空间模型（RSM）

Tatsuoka提出的规则空间模型是一种基于模式识别和分类技术的诊断方法。该方法首先基于Q矩阵理论，分析出测验考察的所有认知属性以及每道题目考察了这些认知属性中的哪些，同时还能确定学生所有可能的知识状态种类。RSM认为学生的作答还会出现失误和猜测两种意外情况，这时学生的ORP会与其ERP不符，那么该如何基于ORP估计出学生的知识状态呢？RSM根据项目反应模型计算出一组序偶R（θ，ζ），它在规则空间中是一个坐标点，称为纯规则点。θ是学生的能力参数，ζ是基于项目反应理论的一个警戒指标，表示能力为θ的学生其实际作答反应模式偏离其真实能力水平相对应的项目反应模式的程度。基于ORP，可以计算出每个学生的序偶，然后使用贝叶斯判别或马氏距离判别可将学生判归为某个纯规则点，这个纯规则点即代表了相应的知识状态。

3.属性层级模型（AHM）

AHM是在RSM的基础上发展起来的，该模型同样采用了RSM模型的Q矩阵理论，但有两点不同之处。第一，AHM强调首先要界定好属性及其层级结构，据此来编制诊断测验，RSM是在现有测验的基础之上，反推属性及其层级结构。第二，AHM根据最大相似概率对学生进行判别，RSM通过建立规则空间，使用距离判别法对学生进行判别。Leighton等提出了两种基于项目反应理论和概率论的分类方法：A方法和B方法。

方法A：

，其中

sj（01）表示学生i的期望反应为0，但观察反应为1的所有题目的集合；sj（10）表示学生i的期望反应为1，但观察反应为0的所有题目的集合。P（θi）为学生i的正确作答概率，由项目反应模型估计得到。

方法B：

。该方法与A方法的区别在于，B方法认为拥有某个观察反应模式的学生，掌握了所有逻辑包含在其中的期望反应模式的属性组合，对于那些逻辑不包含的期望反应模式，只需考虑失误而不需考虑猜测[14]。

4.确定性输入，噪音“与”门模型（DINA）

DINA模型是具有显式项目特征函数的诊断模型[15]，其数学表达式为：

，其中

是潜在反应指标，具体含义是指，若学生i掌握了项目j所考察的全部属性，则ηj=1，否则，ηj=0。从中可以看出，DINA模型能将学生分为两类，一类是掌握了题目考察的全部属性，一类是至少有一个题目考察的属性未掌握。αik 指学生i是否掌握了第k个属性（k=1，2，…，K）， αik =1表示掌握，αik =0表示未掌握。qjk表示项目j是否考察了属性k，若qjk=1表示考察了，qjk=0表示未考察。sj是题目的失误参数，它表示学生 i 掌握了题目 j 考察的全部属性，反而答错的概率；gj是题目的猜测参数，它表示学生 i 未全部掌握题目 j 考察的属性，反而答对的概率。一个质量较好的题目，应该具有较小的 sj 和 gj 参数，并且要满足1-sj>gj[16]。

5.融合模型（FM）

FM被认为是一个很成功的认知诊断模型[17]，其数学表达式为：

。

其中

，表示掌握题目j考察的全部属性的学生的正确作答概率，也称作题目的难度参数，其值越大，题目难度越小。

表示学生未掌握属性k所带来的惩罚，每少掌握一个题目j考察的属性，正答概率就会下降。r*ik也称作属性区分度，其值越小表明属性越重要。cj 表示学生答对项目 j 所需残余能力的程度，它是表征 Q 矩阵完整性的指标，cj值越大说明 Q 矩阵界定越完备[18]。

三、认知诊断测验编制方法

认知诊断测验与传统测验的主要区别在于：（1）认知诊断测验的目的是侦查出学生的知识漏洞，进而采取针对性的补救措施，促进个体的认知发展；而传统测验意在对学生进行整体评价或筛选，较少关注个体的认知结构。（2）认知诊断测验需要由认知心理学和心理测量学专家事先界定出完成测验任务所需的认知属性，以及它们之间的层级结构，然后根据Q矩阵理论编制测验；传统测验一般是根据双向细目表来编制测验，无法侦查出学生在认知结构和认知加工过程方面的情况。（3）在编制认知诊断测验时，不仅要满足测验考察的内容、题型、难度、区分度等标准，同时还要兼顾可达矩阵、每个属性的考察次数以及每道题目所考察的属性个数等因素。（4）传统测验追求的是总分分布形态尽量呈正态分布，分数之间的变异性越大越好[19]，认知诊断测验对总分形态没有要求。

基于以上区别，认知诊断测验的编制方法与传统测验大不相同。国外学者从不同方面对其编制方法进行了研究[20]，包括：认知设计系统[21]、证据中心设计[22]及基于KL信息量的认知诊断测验编制法[23]。在综合了前人研究的基础上，我们认为编制一份优良的认知诊断测验应该包含以下步骤：

1.确定认知诊断评估的目标和群体；

2.根据目标，由专家界定出完成测验任务所需的认知属性，以及它们之间的层级结构；

3.根据属性层级结构，利用Q矩阵理论建立一系列矩阵，其中测验矩阵Qt阵十分重要，是认知诊断的测验蓝图[9]；

4.根据Qt矩阵编制认知诊断题目；

5.选择合适的认知诊断模型对题目参数和学生的知识状态进行评估；

6.对题目质量进行分析，例如，题目参数是否合理，Q矩阵质量是否合格，界定是否完备；

7.根据第6步的结果对题目进行修订或增删，以及对Q矩阵进行重新标定，之后重复2-7步骤，直到所有的题目均达到理想标准；

8.测验组卷。

四、认知诊断测验的效度检验

效度检验不应该仅局限于对测验本身是否达到预期测量目标的范围（内容/结构效度），还应该包括补救和指导效果的考察（校标效度）[24]。关于效度检验，目前有以下两派观点。

（一）Messick框架

Messick提出的效度检验框架[25]，关注的是由认知诊断设计带来的正向或负向结果，它强调认知诊断设计与补救之间的联系。Messick区分了认知诊断结构效度的7个方面：（1）内容是否体现了认知诊断的目标领域；（2）学生是否运用了相应的认知加工过程去完成测验任务；（3）评分是否反映了学生能力与目标领域的交互作用；（4）认知诊断得到的结果是否能预测期望的结果；（5）认知诊断测验的结果是否公平可信；（6）认知诊断测验是否有较好的聚合效度和区分效度；（7）测验结果的外推性如何，例如是否能够推广到不同时间、地点以及实测环境。

（二）荷兰学者框架

Borsboom及其同事提出了认知诊断效度检验的三个主要概念[26]。（1）测量概念：认知诊断评估需要关注的是那些可以被量化的研究侧面，其中包括测量到的内容与想要测量内容的一致性、在不同情况下测量到的结果是否具有不变性，以及测量到的结果是否准确。（2）决策概念：能够用心理测量方法进行量化研究，包括额外评估，以及根据经验与诊断评估分数相关联的其他标准。强调对一个较稳定特质的测量结果是否能准确预测未来，是否采用了最佳的测量方案等。（3）影响概念：量化基于诊断评估所进行的决策评价，不能直接追溯到诊断评价的心理测量性质本身，而应该根据测量结果的变异性来考察效度。该概念包括测量的结果是否可以被接受，对不同人群测量是否公平等。

以上两派观点均是从理论出发，探讨在认知诊断中该如何对效度进行检验，以及应该关注的方面。实践中，一些学者采取具体措施对效度问题进行了检验。Tatsuoka和Tatsuoka将补救措施作为实证效度的证据[27]，他们对学生进行前测后，根据诊断结果对学生实施了针对性的补救措施，然后在实施后测之后发现，93%的学生有了进步，7%的学生发生了退步；Jang在对二语阅读理解进行诊断后将结果反馈给教师和学生发现，所有的教师认为诊断信息十分有效，能够使学生了解未掌握的属性有哪些，并有效指导教师教学，有39%的学生经常使用反馈的诊断信息来指导自己学习，50%的学生偶尔使用反馈信息[28]。Embretson和Yang还提出建立项目难度对认知属性的回归检验，来测量认知属性对题目难度的解释量，以此来验证Q矩阵的内部效度[29]。

五、认知诊断在实践中的应用

认知诊断在实践中得到了广泛的运用，概括起来，主要包含两个领域：教育领域和临床诊断领域。其中第一个领域的研究颇丰。

（一）认知诊断在教育领域的应用

在数学学科方面，余嘉元运用RSM对江苏省中学生解不等式题进行了诊断研究，这是RSM在国内的首次应用[30]。范士青用RSM，采用任务分析的方法归纳出加减法运算的属性及其层级结构，以此编制测验，调查了268名小学二、三年级学生对整数减法计算的掌握情况，研究发现，有87%的学生被成功划归到18个理想反应模式中[31]。

在语言研究方面，Hartz等人运用融合模型对小学三年级学生的阅读评估测验及PSAT测验进行了研究[32]；刘慧以现代汉语普通话六个基本颜色词为对象，运用RSM对汉语非母语者对这些颜色词的认知模式作出判别，并对他们的掌握情况作出诊断性描述，这是RSM在汉语语言测试中的首次应用[33]。王静用RSM对857名被试进行了C.TEST阅读理解测验的诊断性评价研究，将90.57%的被试成功地划归到50个理想反应模式中[34]；赵雪晶用RSM对289名以汉语为第二语言学习者进行了量词掌握模式的诊断研究，有95.16%的被试得到了成功归类[35]；蔡艳、丁树良和涂冬波根据高考英语数据，采用AHM方法对82000名考生作了认知诊断分析，探明了目前高中生在英语阅读问题解决的认知特征及存在的问题，为教学指导及评估提供了丰富信息[36]。

在认知能力测验方面，康春花和戴海琦用LLTM对空间折叠能力（心理旋转）进行了实证研究，取得了良好的效果[37]。戴海琦和刘声涛还用LLTM对影响瑞文测验项目认知难度因素进行了实证研究[38]。余嘉元用RSM编制了40道题目，对南京市中学生进行测量，发现其中有318人存在不同程度的认知缺陷，他们能够被划归到16种不同的理想反应模式中[39]。赵顶位将AHM运用于三段论推理测验编制及个体知识状态的判别中[40]。赵顶位和戴海琦用高阶DINA模型对江西省三所中小学4-8年级学生的几何类比推理问题解决能力进行了诊断评估，探明了目前学生在解决几何类比推理问题中所存在的问题，进而为提出针对性的补救措施提供依据，使学生能够更好地掌握知识[41]。

在其他学科中的应用方面，刘启亮用RSM作了初中化学认知诊断的研究，将91.46%的被试判归为21种理想属性反应模式，然后就根据诊断结果该如何进行补救进行了相关探讨，从班级和个体两个层面从理论上提出了一些补救方案[42]。黎娇以欧姆定律学习为例，运用RSM进行了中学物理教学评价中的实证研究[43]。徐光建用高阶DINA模型编制了高一物理认知诊断测验[44]。

（二）认知诊断在临床诊断领域的应用

Templin等人运用DINO模型对593名被试在病理性赌博方面进行了临床诊断研究，按照《精神障碍诊断与统计手册》（DSM-IV-TR）给出的10条标准，估计出了每个被试在各条标准上的“掌握程度”，从而判断该被试是否存在病理性赌博倾向[16]。

此外，Reif等人认为以往人格问卷的编制缺乏直观性，并且题目的难度均是由实证研究所决定。为了增加问卷题目的结构效度，他们使用LLTM编制了人格问卷[45]。

六、结语

未来认知诊断的发展不仅需要关注对测量模型的研究，更需要加强理论建设（Q矩阵理论），只有两者齐头并进，才能更好地壮大认知诊断理论。正如Leighton等人曾说：“认知诊断评价还处于婴儿期，但它的起源是非常牢固的。”[5]最后，希望更多的心理学工作者能够加入到认知诊断研究中，共同推进该测量理论的发展。

参考文献：

[1]Glaser， R.， The future of testing： A research agenda for cognitive psychology and psychometrics[J]. American Psychologist， 1981， 36（9）： 923.

[2] Nichols， P.D.， A framework for developing cognitively diagnostic assessments[J]. Review of Educational Research， 1994， 64（4）： 575-603.

[3] Stout， W.， Psychometrics： From practice to theory and back[J]. Psychometrika， 2002， 67（4）： 485-518.

[4] Leighton， J. and M. Gierl， Cognitive diagnostic assessment for education： Theory and applications[M]. Cambridge University Press， 2007.

[5] Tatsuoka， K.K.， Cognitive assessment： An introduction to the rule space method[M]. Routledge New York， NY，2009.

[6]Rupp， A.， J. Templin， and R. Henson， Diagnostic measurement： Theory， methods， and applications[M]. Guilford Press， 2010.

[7]Tatsuoka， K.K.， Architecture of knowledge structures and cognitive diagnosis： A statistical pattern recognition and classification approach[J]. Erlbaum： Hillsdale， 1995： 327-359.

[8]丁树良，王文义，罗芬. 认知诊断中Q矩阵和Q矩阵理论[J].江西师范大学学报：自然科学版， 2012， 36（5）： 441-445.

[9]丁树良，汪文义，杨淑群. 认知诊断测验蓝图的设计[J].心理科学， 2011，34（2）： 258-265.

[10]杨淑群，蔡声镇，丁树良，林海菁，丁秋林. 求解简化Q矩阵的扩张算法[J].兰州大学学报：自然科学版， 2008，44（3）： 87-91.

[11]丁树良，杨淑群，汪文义. 可达矩阵在认知诊断测验编制中的重要作用.江西师范大学学报：自然科学版， 2010，34（5）： 490-494.

[12]辛涛，乐美玲，张佳慧. 教育测量理论新进展及发展趋势[J].中国考试， 2012， 5： 002.

[13] Fischer， G.H.， The linear logistic test model as an instrument in educational research[J]. Acta psychologica， 1973，37（6）： 359-374.

[14]韩裕，张敏强. AHM分类方法的改良[J].华南师范大学学报（自然科学版）， 2012.

[15]Junker， B.W. and K. Sijtsma， Cognitive assessment models with few assumptions， and connections with nonparametric item response theory[J]. Applied Psychological Measurement， 2001， 25（3）： 258-272.

[16] Templin， J.L. and R.A. Henson， Measurement of psychological disorders using cognitive diagnosis models[J]. Psychological Methods， 2006， 11（3）： 287.

[17]涂冬波，蔡艳，戴海琦，漆书青. 现代测量理论下四大认知诊断模型述评[J].心理学探新， 2008. 28（2）： 64-68.

[18] Hartz， S.M.， A Bayesian framework for the unified model for assessing cognitive abilities： Blending theory with practicality[D]. Unpublished doctoral dissertation， University of Illinois at Urbana-Champaign， Urbana-Champaign， IL.， 2002.

[19]漆书青，戴海崎，丁树良，现代教育与心理测量学原理[M].北京：高等教育出版社. 2002.

[20]蔡艳，涂冬波，丁树良，认知诊断测验编制的理论及方法[J].考试研究， 2010（003）： 79-92.

[21] Embretson， S.E.， A cognitive design system approach to generating valid tests： Application to abstract reasoning[J]. Psychological Methods， 1998， 3（3）： 380-396.

[22] Mislevy， R.J.， L.S. Steinberg， and R.G. Almond， On the role of task model variables in assessment design. In Siring & P. Kyullonene （ Eds. ）， Generating items for cognitive tests： Theory and practice[M]. Hillsdale， NJ： Erlbaum， 2003.

[23] Henson， R. and J. Douglas， Test construction for cognitive diagnosis[J]. Applied Psychological Measurement， 2005， 29（4）： 262-277.

[24]王卓然，郭磊，边玉芳，从与标准测验理论差异谈认知诊断的特征[J].考试研究， 2012， 32（3）： 10-20.

[25]Messick， S.. Validity. In R. Linn （Ed.）， Educational measurement （ 3rd ed.， pp. 13-103） [M].NewYork： Macmillan，1989.

[26]Borsboom， D.， &Mellenbergh， G. J..Testvalidity in cognitive assessment.In J. P. Leighton&M. J. Gierl （Eds.）. Cognitive diagnostic assessment for education：Theory andapplication（pp. 85-118） [M]. Cambridge， UK：Cambridge University Press，2007.

[27] Tatsuoka， K.K. and M.M. Tatsuoka， Computerized cognitive diagnostic adaptive testing： effect on remedial instruction as empirical validation[J]. Journal of Educational Measurement， 1997，34（1）： 3-20.

[28] Jang， E.E.， Cognitive diagnostic assessment of L2 reading comprehension ability： Validity arguments for Fusion Model application to LanguEdge assessment[J]. Language Testing， 2009，26（1）： 31-73.

[29]Embretson， S.E.， & Yang， X.. Construct validity and cognitive diagnostic assessment.In J. P. Leighton.， & M. Gierl （Eds.）， Cognitive Diagnostic Assessment for Education[M]. New York： Cambridge University Press，2007.

[30]余嘉元. 运用规则空间模型识别解题中的认知错误[J].心理学报， 1995，27（2）： 196-203

[31]范士青. 小学生加减法计算错误的分类与认知分析[D]，华中师范大学硕士学位论文，2008.

[32]Hartz， S.， L. Roussos， and W. Stout， Skills diagnosis： Theory and practice[J]. User Manual for Arpeggio software. ETS， 2002.

[33]刘慧.规则空间模型在留学生汉语颜色词掌握模式诊断中的应用[D]，北京语言大学硕士学位论文，2006.

[34]王静.C. TEST 阅读理解测验的诊断性评价研究[D]，北京语言大学硕士学位论文，2008.

[35]赵雪晶. 汉语作为第二语言学习者量词掌握模式诊断研究[D]，北京语言大学硕士学位论文，2009.

[36]蔡艳，丁树良，涂冬波。英语阅读问题解决的认知诊断[J].心理科学， 2011，34（2）： 272-277.

[37]康春，戴海崎. 采用LLTM作测量与认知结合研究的初步探讨[J].心理科学， 2001，24（5）： 569-572.

[38]戴海崎，刘声涛. 瑞文测验项目认知难度因素分析及LLTM拟合验证[J].心理与行为研究， 2004，2（2）： 411-414.

[39]余嘉元. 关于新课程改革中的诊断性测验研究[J].教育探索， 2006. 5： 24-25.

[40]赵顶位. 属性层次方法下的三段论推理测验制及个体属性掌握模式的判别[D]，江西师范大学硕士学位论文，2007.

[41]赵顶位，戴海琦. 基于认知设计系统的几何类比推理测验的编制及认知模型分析[J].心理学探新， 2011，31（3）： 278-283.

[42]刘启亮. 规则空间模型在初中生化学知识学习诊断与补救中的应用研究[D]，江西师范大学硕士学位论文，2008.

[43]黎娇. 规则空间模型在中学物理教学评价中的实证研究[D]，江西师范大学硕士学位论文，2008.

第4篇：教育测量与评价论文范文

工程教育专业认证有利于构建我国工程教育质量监控体系，推进工程教育改革，进一步提高工程教育质量；农业水利工程专业结合培养目标、毕业要求，从课程设置、实践环节、实践平台、教学管理和质量保障体系等四个方面，结合专业认证要求，进一步完善专业教学体系。

【关键词】

工程教育专业认证；教育质量；农业水利工程；教学体系

【基金项目】

本文系石河子大学校级教学项目“农业水利工程特色专业建设”的研究成果。

目前石河子大学农业水利工程专业的办学条件、师资队伍、教学水平和科研实力得到了整合和提高，整体实力显著增强；形成了以博士研究生教育、硕士研究生教育、本科教育和成人教育多层次、多渠道、多形式的办学模式；形成了一支专业水平较高、师资结构合理、发展趋势良好的教师队伍；人才培养理念先进、目标明确、规范合理、操作性强；办学特色鲜明，优势明显，专业建设与教学改革成绩显著。为专业的可持续发展奠定坚实基础，同时也为培养高素质专业性新型人才提供了平台。结合教育部工程教育认证标准，农业水利工程专业教学体系也进一步完善。

一、农业水利工程专业认证培养目标

按照石河子大学要求，每四年一次进行培养目标的达成度评价，同时对培养目标进行全面修订，在四年的实施过程中可进行微调，评价与修订过程由学院、大学两级机构组织专家评审，同时着重邀请行业和企业专家参与。经对照工程教育认证标准，农业水利工程专业学生主要学习农业水利工程基本理论和基本技能，掌握水利工程设计方法、科学研究方法及施工管理的基本能力，具备农业水利工程的勘测、规划、设计、施工、管理等基本技能。

二、结合认证标准，完善专业课程体系

1.课程设置

农业水利工程专业课程由学校根据培养目标与办学特色自主设置，能支持培养目标的达成，课程体系设计由农业水利工程专业资深教师完成，有企业和行业专家参与，包括人文社会科学类课程、数学与自然科学类课程、工程基础类课程、专业基础类课程、专业类课程等课程计60余门课。其中，人文社会科学类通识教育课程占总学分的16．7％，学生在从事农业水利工程设计时能够考虑法律、伦理、经济、环境等各种制约因素；符合本专业培养目标的工程基础类课程、专业基础类课程与专业类课程占总学分的29.8%，工程基础类课程和专业基础类课程应能体现数学和自然科学在本专业应用能力培养，专业类课程应能体现系统设计和实现能力的培养。

2.实践环节

实践环节包括课程实验与实习、课程设计、专业认识实习、专业生产实习、毕业设计（论文）及其他实践环节等，其中毕业设计（论文）不少于12周，课程实验8～16学时，课程设计一般安排1～2周。实践教学体系结构包含课程实践教学、专业实践教学和毕业实践教学三部分。课程实验包括物理实验、水力学实验、土力学实验、测量学实验、电工学实验、材料力学实验、建筑材料实验、灌溉排水工程学实验、水工模型实验、节水灌溉实验、水工钢筋混凝土结构实验等；课程实习包括测量实习、水文实习、水文地质实习；课程设计包括水文学及水利计算课程设计、灌溉排水工程学课程设计、水工混凝土结构课程设计、水土保持学课程设计、节水灌溉技术课程设计、水工建筑物课程设计等；专业实习包括认识实习、生产实习。还包括其他实践环节，如：工程技能训练、科技方法训练、科技创新活动、公益劳动、社会实践，结构模型制作大赛、全国周培源大学生力学竞赛、大学生创新创业实验计划等。

3.毕业设计（论文）

工程实践与毕业设计（论文）占总学分的16.7%，毕业设计（论文）选题90%以上结合本专业的工程实际问题，培养学生的工程意识、协作精神以及综合应用所学知识解决实际问题的能力。

（1）选题。

毕业设计或毕业论文题目以所学农业水利工程知识为基础，同时结合生产科研项目开展，进行综合训练；也进行涉及本专业的有关研究热点进行专题研究，主要分为5个方向：农业水利工程规划与设计、节水灌溉技术设计、灌区水利工程设计、灌区水利工程管理与施工组织设计、专业相关热点问题研究（论文）。

（2）内容。

由水利工程系负责组织毕业设计的选题论证、文献调查、技术调查、设计或实验、结果分析、写作、绘图、结题答辩等，使学生各方面得到全面锻炼，并培养学生的工程意识和创新意识。

（3）指导与评价。

毕业设计（论文）的相关材料，包括设计选题指南、设计任务书、设计开题报告，反映指导教师指导与管理过程的材料：指导教师、评阅教师、答辩记录等齐全。结合生产项目进行的毕业设计（论文），由教师与新疆天业节水有限公司、兵团设计院一分院、石河子市天兴设计院等企业专家共同指导，答辩时有兵团设计院一分院、石河子市天兴设计院、新疆天业节水有限公司等企业专家参加。

三、农业水利工程专业实践平台建设

为了满足农业水利工程专业实践教学的需要，学院在校内及校外相关企业建立了专门的专业教学实习、实践教学基地，先后与新疆天业节水灌溉股份有限公司、中国长江三峡集团公司三峡培训中心、新疆生产建设兵团勘测规划设计研究院、新疆兵团建设工程(集团)有限责任公司等设计、施工、监理单位签订了长期的合作协议。目前形成了灌溉工程实习基地、水文实习教学基地、蓄水引水工程实习基地、科研试验实习基地、水管单位实习基地、设计单位实习基地等10多个实习基地，每年可容纳200人左右学生进行课程实习、认识实习、生产实习、毕业实习等。

四、教学管理和质量保障体系

按照“以人为本、全程保障、以评促建、提升内涵”的原则，农业水利工程专业建立教学过程质量监控机制，学院主管教学领导负责，由水利工程系进行课程的教学大纲、考试大纲、教材、教案、讲稿审定，同时对课堂理论教学、课程实验、实践等环节进行质量考核。农业水利工程专业课程体系设置每4年进行一次调整，每年进行微调；教学质量评价由大学教务处和学院组织实施，分为学生评教、大学督导评教和教师同行评教，每学期评教1次。统筹协调教学管理，抓标准、抓评估、抓建设，构建了教学评价与管理并行的质量保障运行机制。

1.教学质量体系

科学构建了目标与过程并重的本科教学质量监控体系，该体系由目标、组织、管理、评价反馈、保障五个子系统组成闭环，通过校院两级管理、两级督导、校院系三级保障模式有效运行，形成良性循环，对各教学环节提供了全面质量监控和质量保障。建立年度考核制度，形成保障本科教学质量的长效机制。学校实行二级教学管理模式以来，坚持对各院系本科教学工作实施年度考评，形成了保障本科教学质量的长效机制。

2.教学评估体系

学校和学院构建了学生、教师、领导、督导“四位一体”的教师教学评价体系，实施常态化教学质量评估。采用督导专家、领导听课检查、教师互评、学生评教、学生座谈会、问卷调查等多种手段和途径，及时广泛地收集教学质量信息，实施公开、公平、公正的教学评估，全面监控教学质量状况。农业水利工程专业在对教学质量有重要影响的一些关键点上给予了重点监控。例如，在严把教师教学关方面，严格执行教师开新课和新开课的试讲制度，始终坚持对青年教师实行助课、听课和试讲制度，有效促进了新教师教学水平的提高。在课堂授课方面，建立了学院领导、专业带头人、督导组成员听课制度，严格规范教师的课堂授课行为，并利用课堂教学检查、专家听课、学生评教等手段及时监控教师的授课情况。

作者：吕廷波李明思何新林单位：石河子大学水利建筑工程学院

参考文献：

[1]倪福全,李昌文,马荣朝,等.农业水利工程专业人才培养实践教学体系研究[J].安徽农学通报,2011,17(1):164-166.

[2]陈元芳,李贵宝,姜弘道.我国水利类本科专业认证试点工作的实践与思考[J].科教导刊,2013,(2):25-27.

第5篇：教育测量与评价论文范文

加入收藏

联系我们

|首页|最新|语文|数学|英语|政治|物理|化学|历史|地理|生物|音乐|体育|美术|科学|计算机|公文|

论文搜索：[热门]素质教育写作总结说课计划心得体会教案操行评语

首页>>数学论文>>新课程理念下初中数学教学

【加入收藏夹】【搜索相关的文章】【关闭窗口】

（甘肃省镇原县平泉中学刘永强744517）

摘要：数学新课改要求教学中讲背景来源，讲思想方法，注重过程，联系实际，突出应用，体现数学的文化价值；

关键词：数学新课改、更新观念、关注过程，应用、提高创新能力。

随着数学课程改革的不断深入，数学教学中对教师的教和学生的学的评价及要求也在不断地发展。数学新课程所倡导的教学理念：讲背景来源，讲思想方法，注重过程，联系实际，突出应用，体现数学的文化价值；在教材编排上也从封面设计，导引，章头图及正文的“想一想，做一做，议一议，读一读”等都体现了数学的美学价值和人文精神。通过两年多的试改，感受颇深：

1、教师观念更新，提高认识

在课堂教学中，教师一改以往的角色，成为教学活动中的参与者、合作者、组织者，而宽松、和谐、民主、生动活泼的数学课堂使学生在没有任何压力下产生强烈的求知兴趣，同时也能发现数学的文化价值。

首先，过去对于教师的“主导”地位问题，是课堂评价的一个论据，而在数学新课程改革中对我们理解更会有不同侧面和深刻程度上的差异，所以，当教师把自己变为课堂活动的一名合作者、参与者时，也将自己和学生放在了同一水平上，才能从数学学科的特点出发，考虑到每个学生的不同背景，每个学生的现实基础，认知水平等进行教学，从而发挥每个学生的最大潜能。

其次，在新课改理念下，教师对学生的地位也有了新的认识；教师与学生在教学中的关系是动态的，不再起什么“主导”与“主体”性作用，这一定位，拉近了师生的距离。过去我们评价一节课只看表象，评课者只关注教师在这节课中“戏”演得是否令观众满意，再看观众反应如何，来评这节课的成功与否，注重了数学教学的系统结构和形式化，而较少关注从“感知数学情景、体验数学本质、概括数学抽象、反思数学应用。”的完整数学学习过程，这种形式化教学搞得教师手忙脚乱，学生也无所适从，且看美国中学数学教学的一个案例：

在美国西雅图一节高二数学课上，老师讲的就是一个测量塔高度的问题，一上课，老师就把这个任务交给学生，说塔是高不可及的朵想办法测量这个塔的高度。学生听完以后就每个人拿了一个图形计算器，分成四、五个人一个小组就开始做了。看到这道题我觉得好笑，这不正是前几天才给学生上的一节课吗？是初三数学中的一道应用问题，稍微差不多的学生都很快得出答案。可问题是人家高二学生却做得津津有味，全班同学分完工以后，老师没有做任何提示，学生就开始做这件事情，且没有几个学生去努力找一个公式，绝大多数都在按分工试算：这塔多高呢？有的学生就先设它为100米，找测量点，发现凑不出准确答案，就开始分工，甲把塔放高一点，已把塔变矮点儿，丙把第一个测量点往前点，丁把测量点往后变，四个人分工做，到下课全班还不到10个学生得出结果，老师说：“我们继续去做”。

而这节课在我们教育界的评价会是怎么样呢？没效率，没结果。对比我们的评价方式，我不明白碰撞点在什么地方，如何看待这节课，曾有专家这样认为：在没有任何提示的情况下，大家分工用不同的方法来探索的过程，根据别人的信息来改进自己探索方向的过程，在他们看来比知识更重要。这就使我想到为什么美籍华人杨振宁能获得诺贝尔物理学奖；2006年相当于数学诺贝尔奖的“菲尔茨奖”获得者又是澳籍华人，年仅31岁的陶哲轩，而我们土生土长的中国人却没有，这一切不就说明教育改革，观念更新的可行性吗？

让我们思考我们的数学教育尤其是农村中学数学教育现状，从评价体系的导向上就决定了我们的数学教育是为“应试”而备的，从小学到中学，全部是模块化的：考什么，教什么。而对数学的发展，她的文化价值大概问起来没几个人会知道，对现行新课程知道的又有多少呢？教师为了完成上级下达的任务，在拼时间，讲题型，抓训练，学生为了一个“愿望”，在这个“愿望”的奴化下，麻木的、机械的、毫无生机的学习，我曾经做过一个调查，我所在地方的农村初三学生每周周内学习数学的时间至少在800分钟以上，而其他国家和地区平均是217分钟，我们的代价是多么的大啊，可效果怎么样，我只能用少得可怜来说。

在学习了“中美高层教育交流”研讨后，我对自己八年的数学教学作了回顾，深感自己只不过是个知识的“二道贩子”不停地学习，再将我知道最多，自认为最好的、最得意的东西传授给学生，并告诉他们“量积累到一定程度才能引起质变”并举了数学家苏步青当年为了考取国际上有名的日本帝国大学，对解析几何、微分两门课做了近万道题，结果以双百的优异成绩被录取；传说中王羲之练干了三缸水，若非如此若练，他岂能丰为书圣。可是我们学生苦了，力也出了，成绩怎么样，全县5000多学生参加高考，几年才培养出一个清华学生，而有关部门就认为质量可观，大力宣扬。

2005年新课程改革在全国轰轰烈烈开展，农村中学数学教育也受到影响，但波动不大，广大农村教师只是从课本上的变化中感觉到了课改的气息，因为受各种因素制约，我们绝大多数都没有外出学习和培训的机会，这就使的我们的课改还要加大力度。

2、关注数学过程，培养创新能力

这是数学课程改革中的“重中之重”，中国教育学会副会长，东北师范大学校长史宁中反复强调“归纳与创新”，学生思维的过程远比简单的数学结果重要。2006年9月6日和7日，“中美数学教育的高层交流”在北京举行，美国学者介绍了他们的数学课上教师讲得很少，主要是学生进行合作交流探索，在我国偏远的农村学校，数学课堂上仍是教师讲为主，学生的自主性很难发挥，他们自小就养成被动接受的习惯，而新课标下的教材在情境创设、培养学生创新意识和实践能力方面为农村数学教育提供了方便，给学生给了更多的思维空间。

在课程改革中，教育理念的更新，必然带来教学行为的变化，只要我们时时做个教学有心人，了解数学发展方向，数学价值，不失时机地反思自己的教学，就可积极稳妥地解决好新与旧的关系。

参与文献：

第6篇：教育测量与评价论文范文

关键词：高职院校创业课程体系评价

一、创业教育课程评价体系建设的意义

课程体系评价是指对课程计划及其实施实际达到教育目的的程度的价值判断活动。创业课程体系的评价目的是通过监控创业课程的实施效果和存在问题，从而达到创业课程体系建设目标。通过创业课程的开展，培养具有良好创业素质、正确的职业价值观的高职学生，形成稳定的创业基本素质和开拓型个性特征，具有较高的发展潜力、竞争能力和社会适应性；培养自我工作岗位的创造者，通过创业知识传授、创业实践活动锻炼以及创业品质的个性化培育，使大学生能自谋职业，并在适当条件下能够开创自己的事业，成为自我工作岗位的创造者；针对有强烈创业动机并具备创业条件的大学生量身定做个性化人才培养方案，培育优秀的创业品质，使其最终走上自主创业之路。

二、创业教育课程评价体系建设现存问题

一是创业课程评价体系缺失。目前，我国创业课程体系与其他课程体系相比，是一个新生事物。大多数高职院校并没有形成有效的创业教育模式以及创业课程体系，只采取公共选修的形式，选用一种或几种教材，采用比较单一的教学模式，从而达到培养学生的创业意识的目的，而不是系统地培养创业人才。在这种创业课程体系尚未建立的情况下，创业课程评价体系自然缺失。

二是创业课程评价体系尚不成熟。现有创业课程评价体系大多是有几种简单的评价方法构成。有的院校单纯以创业成功率来评价创业课程体系的成功与否，有的院校以学生在创业过程中的表现作为评价标准。具体采用的方法包括如下几种：目标评价模式、目标游离评价模式、CIPP评价模式、CSE评价模式等。

三、国外创业教育课程评价体系对我国的影响

随着高校创业教育的迅速发展，其相应的评价体系也变得日益重要。为了更好地评估大学的创业教育项目，威斯帕提出了进行评价的七个因素：提供的课程、教员发表的论文和著作、对社会的影响力、毕业校友的成就、创业教育项目自身的创新、毕业校友创新企业情况、外部学术联系。

通过分析国外创业课程体系建设的文献发现，创业课程体系对于人才培养效果的评价指标可以大致分为如下几种：长期指标和短期指标、主观指标和客观指标、离散指标和系统化指标。短期指标主要衡量实施创业教育后，短期所呈现的效果。包括：创业兴趣、创业信心和创业自我效能感、创业知识和创业技能等。但是，创业课程体系对于人才培养的效果并不是全部在短期内表现出来，因此，引发了人们对于长期指标的思考。包括：创业率、创业成功率、创业绩效、进入高层管理的人数等等，这些指标的测量都必须长期跟踪。主观指标一般用来测量被调查者的创业兴趣、创业意向、工作满意度、团队合作能力等。客观指标往往测量创业课程体系对于受教育者的长期影响，创业企业的财务业绩、创业企业提供的就业岗位等等。但是这些指标单独的测试往往是离散的，系统的指标和离散的指标结合起来，短期指标和长期指标结合起来，主观指标和客观指标结合起来，评价结果才更有借鉴价值。

研究结果表明：创业课程评价体系的构建与评价机制的运作，增强了高校间的竞争意识，也促进了创业教育的快速发展。

四、高职院校创业教育课程评价体系的构建

（一）高职院校创业课程体系的构建

高职院校课程体系的构建是服务于创业人才培养目标的。经过调查，我们发现“三阶段”创业教育模式和“三阶段”能力递进的创业课程体系的建立是能够被大多数人接受的。按照创业教育培养范围不同和个体差异，结合实际情况，建立三阶段创业教育模式：第一阶段，面向全体学生提高就业能力的一般教育；第二阶段，面向部分学生提高自我开创事业能力的专门教育；第三阶段，面向少数学生提高自主创业能力的特定教育。由此对应的“三阶段”能力递进的创业课程体系就应该是创业理论课程体系、创业实训课程体系、创业实践课程体系。

（二）高职院校创业课程评价体系的构建

1、构建原则。一是多元化。评价体系的构建绝对不是一个维度的考核，而是多角度的一个测量。既要测量创业兴趣、创业信心和创业自我效能感、创业知识和创业技能等，又要测量创业率、创业成功率、创业绩效、进入高层管理的人数等。既要测量创业业绩，也要测量创业过程。

二是系统化。评价指标尽管呈现多元化态势，但是根据人才培养目标的要求，测量各个指标所用的权重也应该是不同的。

2、构建模块。创业课程体系的评价不应该是一个标准，针对不同的模块应采用不同的测量标准。因此，创业课程评价体系应包括三个模块：一是创业理论课程体系评价模块；二是创业实训课程体系评价模块；三是创业实践课程体系评价模块。在创业理论课程体系评价模块中，创业兴趣、创业信心、创业自我效能感、创业知识是主要的测量指标。在创业实训课程体系评价模块中，创业技能是主要测量指标。在创业实践课程体系评价模块中，创业率、创业成功率、创业绩效、进入高层管理的人数是主要测量指标。

五、结论

目前，虽然创业课程体系的构建仍然存在很大的争议，创业教育课程评价体系的建立更是为时尚早。但是，随着就业压力的不断增大，随着国家对创业教育的加倍关注，培养为区域经济服务的创业人才的质量和规格就会成为高职院校增加自身竞争力的重大砝码。

参考文献：

[1]邢娣凤.高职院校创新创业教育的路径选择[J].黑龙江高教研究，2011（04）

第7篇：教育测量与评价论文范文

关键词：经典测量理论信度难度区分度

一、引言

教育测量与评价是教育研究领域中重要的组成部分，是学科教学活动中科学管理的有效手段。《国家中长期教育改革和发展规划纲要（2010-2020年）》明确把提高教育质量作为教育改革发展的核心任务，并多次强调与教育质量的监测和评价相关的内容[1]。显然，在当前教育制度下，各种笔试仍是一种重要而有效的教育质量定量评价方式。试卷质量自然影响对教育质量的正确评价，因此，针对笔试试卷的质量分析显得尤为重要。

试卷质量的分析一般是利用经典教育测量理论（CTT： Classical Test Theory）和项目反应理论（IRT：Item Response Theory）进行分析。

经典测量理论又称为真分数理论，假定观察分数X与真分数T线性相关，即CTT的数学模型为X=T+E，其中，随机误差E服从均值为零的正态分布。该理论最重要的四个指标正是反应试卷是否真实可靠、准确有效、难易适中、鉴别力强的信度、效度、难度和区分度等测验质量指标[2]。当然，由于其比较依赖样本、信度估计精度不高、难度和被试水平没有定义在同一参照系上，同时，无法回答总分相同的考生的真实能力有无差异等问题，该理论也存在一定的局限性[3]。

项目反应理论是一种新兴的心理与教育测量理论。该理论的前提假设非常严格，主要包括单维性假设和局部独立性假设[4]。主要方法是在利用参数模型的基础上，利用项目特征曲线、试题信息函数进行探讨，同时利用EM算法，用边际极大似然估计方法寻找项目参数的一致估计[5]。

本文主要利用南宁市某中学2013年秋季学期数学期末考试成绩，在经典测量理论（CTT）范畴下探讨该次期末考试数学试卷的信度、效度、难度、区分度和成绩分布情况。通过试卷“四度一分布”了解试卷质量，并反馈教学效果情况。

二、基于CTT的试卷质量情况分析

1.成绩分布情况

一般而言，一份好的试卷考试的成绩都服从或近似服从正态分布，因此，考试成绩的正态性是考察试卷质量的一个首要指标。检验正态性的方法很多，常见的是利用直方图和卡方检验、K-S检验。从参加本次考试的872人中随机抽取387人的成绩进行检验，结果如图1所示：

图1 学生成绩的直方图

正态分布的K-S统计量显著性概率P值为0.095>0.05，因此，这次考试学生成绩服从正态分布。

2.信度

中学试卷中，选择题分数可简化为0，1得分情况来解释，解答题和填空题可以看成非0，1记分的项目。因此，选择题信度主要采用折半信度[斯皮尔曼-布朗（Spearman-Brown）公式、卢隆（Rulon）公式、弗拉纳根（Flanagan）公式]和库德-理查逊（Kuder-Richardson）信度（K-R20、K-R21公式）进行分析[7]。填空题和解答题为非0、1记分的项目，采用克龙巴赫系数进行统计，结果如表1所示。

表1 试卷信度分析结果

结果表明，每种方法计算的选择题信度都接近0.7，信度系数处于尚可使用范围之内。研究表明，对于标准化的大型测试题目信度要求一般要在0.9以上，而学校期末考试的信度在0.6以上即可接受[1]。选择题、解答题的克龙巴赫系数为0.905，可以认为填空题和解答题的信度非常好，综合考虑，试卷整体信度是可信的。

3.效度

效度（validity）是指测验结果的有效性或准确性，即通过测验能够正确测量出它所要测量的属性的程度[5]。测量的效度的种类很多，其中基于专家和教师对试题与所涉及的范围进行符合性判断的逻辑判断法的内容效度使用较多。内容效度是指测验内容对所要测验的全部内容的代表性程度。但一次考试很难包含学生所学课程的所有内容，因此只能选择具有代表性的试题进行考核，来了解学生的知识技能掌握情况[8]。

根据测量的目标与内容的双向细分表，经过该校7位一线数学教师（其中高级教师4位，中教一级2位，中教二级1位）不记名反馈信息来看，本次考试所设计的试题覆盖了所要测内容的主要方面，考查目标清晰明确，题型和分数结构合理恰当，总体符合考试大纲和教学要求。

4.难度

试题难度是反映考题难易程度的指标，一般而言是按照答对人数的百分比确定的，是衡量试卷质量的最主要的数量性指标，简单来说可以利用测验分数的分布情况和特征进行观测，例如考察测验分数的全距、零分、满分、众数、平均分数等相关指标进行定性的判断，也可以根据不同的情况，利用有关公示进行精确计算。

一般而言，难度的取值范围在[0，1]之间，取值越大，难度越小。难度在0.7以上的为比较容易的题，在0.4-0.7为中等难度的题，在0.4以下的则为较难的题或是难题。在实际教学中试卷难度水平的选择，应取决于测验的目的和试题的形式。如果测验是用于区分学生水平，那么应该将试题或试卷的难度系数控制在0.5左右，各试题难度值在0.2-0.8，同时各题平均难度值在0.5左右是比较适宜的[5]。

对于采用0，1记分的选择题，用通过率P、平衡猜测的校正公式CP和极端分组法计算各个试题的难度。

表2 选择题的难度

对于非0，1记分的填空题、解答题和总分，用难度系数和极端分组法计算各个项目的难度。

表3 填空题、解答题的难度

结果显示，就选择题而言，三种计算方法的计算的难度差异不大，整体趋势较一致，从三种公式的难度均值看，第1、2、5、6、7、8、9属于难度较小的题目，3、4、10、11、12属于难度中等偏上的题目，其中第4题难度最大，10，11，12三题难度也较大，选择题总体难度为0.767，属于比较容易，从试题编排上看，除个别题目外，整体趋势是容易的题型放在前面，中等难度试题放在题型中间，较难试题放在题型后面，较合理。

对填空题和解答题而言，题目难度显然大于选择题，填空题总体难度均值为0.499，难度中等，解答题总体难度均值为0，472，属于中等偏难程度，8道解答题的难易程度也和题目顺序基本一致，越难的题目越在后面，符合数学试卷的一般规律。

从考试成绩来看，难度系数为0.548，综合选择题、填空题、解答题三种类型的难度均值，整张试卷难度均值为0.579，和总分难度系数接近，因此，可以判定该份试卷总体难度适中。

5.区分度

区分度是反映试题效用的一个主要参数，同时也是试题对考生实际水平的鉴别能力，将不同层次的考生区分开来的统计量。若试题的测试结果是水平高的学生答对或者得高分，水平低的学生答错或者得低分，则认为试题的区分能力强。一般而言，区分度在0.4以上为最佳效果，在0.3～0.39为合格，修改会更好，在0.2～0.29为勉强，仍需耍修改，区分度在0.19以下为差，必须淘汰[6]。

对于0，1记分的选择题，利用极端分组法、点二列相关计算各个试题的区分度。

表4 选择题的区分度

对于连续记分的主观性试题填空题、解答题和总分，用极端分组法和相关法计算各个项目的区分度。

表5 填空题、解答题以及试卷的区分度

注：试卷区分度是将各题区分度进行加权平均计算的。

结果显示，对于选择题而言，总体看来，整个选择题中大部分题目的区分度都在0.4以上。通过极端分组法和点二列相关系数计算的区分度在大部分题目中相差不大。极个别题目有明显差异，主要在于两种方法考虑的视角不一致，就第1题而言，极端分组法的区分度指标0.093，是利用高分组和低分组之间差异进行计算的，两者差异很小，说明该题无论是高分组还是低分组都能完成，就区分能力而言属于应该淘汰的题目，但正是由于该题目在高低分组中完成率都较高，和总分的相关性自然就大，因此，点二列相关法计算出来该题的区分度较高。两种方法计算的试卷区分度均在0.6以上，说明该试卷区分能力强，区分效果佳。

三、有关结论

事实上，该次试卷为全市统一考试题目，从一定程度上说属于“较大的标准化”考试题目。从上述分析可知，本次考试成绩的分布直方图并未凸显畸形特征，基本上呈正态分布，单峰，稍微右偏。就四度而言，填空题、解答题的信度很好，但选择题的信度适中。常见的提高测验信度主要有以下方式：一是适当增加试题量；二是提高质量，试题难度要适中，区分度大；三是调整试题编排顺序，尽量做到先易后难。

测验的效度采用学科专家通过逻辑分析法进行分析的，根据测量的目标与内容的双向细分表，了解到试题覆盖了所要测内容的主要方面，考目标清晰明确，题型和分数结构合理恰当，总体符合考试大纲和教学要求。

试题的难度较合理，大部分选择题难度偏低，其中第4、10两题难度最大。而最后一道解答题的难度系数则过大。这和数学试卷利用最后一题作为压轴题有密切关系。

试题的区分度方面反应较好，但选择题第1、2题和解答题最后一道题在两种计算方法中差异很大。可能的原因在于第1、2题属于难度很低的送分题，因此区分度也不高，最后一道压轴题属于难度最大，很多学生放弃作答，因此存在这方面的问题。

四、结语

考试是衡量教学效果的必要手段。随着统计学及经济计量学边缘的不断扩张，对于教学结果的评价越来越依赖于科学的理论和方法。教育评价技术方法中教育测量理论就是应用教育统计学方法实现的，成为测评学生能力、考核教育效果的重要措施。利用SPSS测度考试的难易度、区分度、信度、效度等指标，不仅可以直观、便捷分析考试结果，发现考试中的重要信息和规律，还可以为教学效果评估提供重要的考核指标和模式。目前在教育教学及科研领域，人们采用科学的测评方法测度试卷科学性的尝试并不多，尤其是一些规模较小的考试，这不利于教学质量和教师素质的提高，亦不利于考试学研究者开启新的研究视域。应该加强对试卷科学化测度的研究及实践，使考试这一重要的教学环节日益走上科学化和规范化的轨道。

通过试卷质量分析，不仅可以了解试卷情况，更可以利用试卷科学性测评的方式了解教师的教学效果，同时也可以通过建立试题库、制定命题双向细目表等方式，提高试卷质量。

参考文献：

[1]《国家中长期教育改革和发展规划纲要》关注教育质量监测[N].基础教育质量监测信息简报，教育部基础教育质量监测中心，2010，1.

[2]郭熙汉，何穗，赵东方.教学评价与测量[M].武汉：武汉大学出版社，2008.

[3]杜洪飞.经典测量理论与项目反应理论的比较研究[J].社会心理科学，2006（6）：15-17.

[4]Christine DeMars.Item Response Theory[M].London：Oxford University Press，2010.

[5]何穗，吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[J].考试与招生，2012（08）：49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs，N.J.， Prentice-Hall，1965.

第8篇：教育测量与评价论文范文

【关键词】实验教学可操作性实验考核

【中图分类号】G633.7 【文献标识码】A 【文章编号】2095-3089（2014）7-0140-02

近几年来，各级政府和教育行政部门花大力气进行中、小学实验仪器、电教设备的配套建设。重点中学的仪器设备已经相当完善，一些普通中学的仪器设备也得到了较大的充实，这为我们的实验教学提供了物质基础。“实验教学应摆在物理教学中的首要地位”已成为广大物理教师的共识。不少中学物理教师正在自觉地朝着大力加强实验教学的方向努力，纷纷开展着各种“以实验为基础”的跟踪对比教改试验。

然而，由于长期受应试教育思想的影响，在很大范围内物理实验教学在某种程度上仍然处于“讲起来重要，教起来次要，考起来不要”的状态。实验教学因长期未受到应有的重视而成为物理教学中的薄弱环节。为解决理想和现实的矛盾，就需要我们找到问题的“瓶颈”。

一、问题的提出

以上现状归结起来，主要有教师、学生和评价体系三个方面的问题。

（一）来自教师的主要问题

（1）学校和教师受传统教育的影响，普遍存在着重理论轻实验的思想。

（2）实验教学模式僵化，物理实验教学的基本原则没有得到充分体现，教学方式呆板。

（二）学生的主要问题

（1）对基本测量仪器的使用不规范。

（2）动手操作能力差。

（3）以“背”实验结论“代替”实验操作。

（三）评价体系不完备

学校的教育评价很多时候只是简单的文化课的考试，缺乏到位的可操作性评价体系。

二、问题的思考与实践

（一）对问题的思考

中学物理实验教学的弊端存在是现实，高考、会考、中考及其存在的价值是现实，中学现有的实验条件和实验员的配备是现实……；物理教学需要改革，物理实验教学需要改革，实验教学目标需要贯彻，相应评价体系也需要建立并付诸实施……从新的课程改革提出到现在，还是没有多大改观，仍存在一系列的问题，这问题出现的根源不在于实验重不重要，不在于客观环境条件允不允许，不在于教学改革是否合理，不在于评价体系是否完备，不在于有多少人做多少实验教学模式的探索，笔者认为只在于“考”。这也正是为什么有很多人做各种有益的教学模式的尝试与研究，而在实践中却只表现出做做样子，研究过后还得回到起点，使研究的意义变得索然的原因。

针对以上分析，笔者认为，为避免教学改革的形式化，使改革具有现实价值，实验教学改革应以实验考核做为切入点，加强实验考核。

（二）强化实验考核――实践

在实验教学总目标的指导下，我们没有将每个实验目标具体细化，这种分解细化后再进行考核的方式由于涉及到教师素质、参加实际监考的教职人员、仪器以及测量时间等的分配问题，实行起来非常困难，就我们的现实条件还不允许。从可操作性角度出发，我们做了一系列的尝试。

（1）阶段性考核时间为各学期期末由所教学科教师和实验教师进行，考试成绩计入学科期末成绩。

（2）学生毕业实验考核成绩直接计入中考成绩，参加监考评价的人员组成：当地教育局人员、各校专职实验教师或在校师范生等。

（3）从考核形式上，我们采用的是实验操作与书面相结合的方式。教师根据实验教学目标进行命题，由学生在实验操作的基础上完成试卷。

（4）实验操作考核测量过程。

测量前，根据操作领域的实验教学目标，编好若干实验操作题，并提供一定量的仪器设备。试题突出典型实验，题目形式多样，包括排除故障式，读取数据式，设计实验方案式等，题目按名称，仪器要求等栏目写成卡片编号。由学生抽签决定考核哪些内容。在操作过程中，教师进行适当观察记录，然后综合评定成绩。评分原则看学生的操作规范性，科学性和准确性。

（5）操作考核成绩共20分，按实际得分结合书面考试成绩计入期末和中考考试成绩。

三、总结与展望

这种方式包含动手动脑的操作内容，以操作考试为主，笔试测量为辅，两者有机结合，在实验教学领域当属有益的尝试。在引起师生对物理实验重视的同时，学生在实验方面的精力投入也相应增加，对实验的理解、操作和设计等方面都有较大程度提高。更为重要的是，在准备考核的过程中，学生由不会、不懂、不能完成实验到能较好地完成实验，并能进行实验设计，收获了自信，体验了成功，为完成物理学习打下坚实的心理基础。

当然，我们的实践还很不完善，距离我们的目标也还有很大差距。但我们坚信，以实验考核作为实验教学改革的切入点，以“考”带“改”的策略在实践当中是有其实际价值的。以此为出发点，结合具体教学模式的探索与实践以及实验教学目标制定和评价体系的逐步完善，必将会使物理实验教学有所提高。

参考文献：

第9篇：教育测量与评价论文范文

1.课程性质与任务本课程是教师教育专业的核心课程。在掌握小学语文教育规律与教育教学理论方法的基础上培养学生教育教学实践技能，包括课程设计与实施；课堂教学推进与监控；课程资源开发与利用；教学评价与综合测量等能力在内的综合能力的养成。通过本课程的学习，能够基本胜任小学语文教师日常工作的基本要求。

2.课程培养目标本专业主要就业面向九年义务制小学，各类民办辅导学校提供的语文教师、班主任、教辅人员等相关岗位。学习《小学语文教材教法》课程达到的核心目标是“提高师范生对小学语文科课程的认识与理解；提高学生的语文教育教学实践与研究能力；奠定小学语文教师的专业发展基础并使其具有较为深厚的发展潜能。”本课程的实践教学能力培养目标：具备准确使用口语与文字表达的技能；具备小学语文课程设计与教学的技能；具备现代科学手段呈现与适度选用的技能；具备与学生沟通交流并对其产生良好影响的技能；具备小学语文教育科研的技能。

二、实践教学标准的实施建议

1.加强校内实训基地与校外实践基地建设校内实训基地与校外实践基地的建设是推动实践教学标准实施的硬件基础，在具体建设中，以“环境建设多元化、实践场所职业化、课程教学理实化、实践项目企业化；职业训练平台、教学研发平台、交流服务平台；进行高技能人才培养”〔3〕为设施建设的主要原则。教师教育专业应根据专业课程教学内容的需要建立能满足全部学生进行课堂模拟教学的多媒体实训室，并配备能满足教学需求的相关软件配套设施。在校外积极寻找并建立实践基地，以一线教学现场为教学依托，发挥其教学实践训练场，教学科研调研场的重要作用。

2.加强课程整合及重视校本教材建设加强课程的多元整合，发挥多重课程的合力，以专业主干课为支撑，向外辐射其相关课程，使课程之间形成相关联、有纵深的课程架构。例如以《小学语文教材教法》为主干课程，整合其与《儿童文学》《儿童教育心理学》《教学技能训练》《写作》等课程，使课程与课程之间跨越学科性局限，综合发挥整体力量，构成未来教师的综合教学技能。重视校本教材建设，建立相应政策支持鼓励专业教师积级参与专业特色教材建设，注重教材体例、结构、内容体现实践性及实用性，不断提升教材编写质量。

教育测量与评价论文精选(九篇)

第1篇：教育测量与评价论文范文

第2篇：教育测量与评价论文范文

第3篇：教育测量与评价论文范文

第4篇：教育测量与评价论文范文

第5篇：教育测量与评价论文范文

第6篇：教育测量与评价论文范文

第7篇：教育测量与评价论文范文

第8篇：教育测量与评价论文范文

第9篇：教育测量与评价论文范文

相关热门标签

相关文章阅读

相关期刊推荐

早期教育·美术教育

早期教育·家庭教育

教育前沿

江西教育

安徽教育

精选范文推荐