要建立一项完善的人事测量工具,目标设定是第一步。如何根据测量目标确定合适的测量工具是决定测量效果的关键因素。根据相应的目标,需要进一步选择不同的程序、方法。要建立好的人事测量工具,还要对人事测量工具设计和编制的基本原则和技巧有所了解、掌握。本章将具体介绍针对不同目的的测量工具的设计,题目的设计和测量编制以及题目的编排。
第一节 针对不同目的的测量工具的设计
一、测量目标的分析
测量目标是指测量工具作什么用。测量目标不同,所设计测量的内容、测量工具的操作形式、所采用题目的形式、题目的范围和难度都会有差异。
在确定测量内容之前,先要确定测量目的是显示个体的行为特点,还是用来预测其将来的行为表现,相应的测量方法叫做显示性测量和预测性测量。
显示性测量(display measurement)反映被测者具有什么知识和特点,能完成什么任务。例如,成就测验、态度测验就是显示性测量。相对而言,许多观察法、调查法都是显示性测量工具。
预测性测量(forecast measurement)工具帮助预测一个人在不同情境下的行为。例如,各种能力倾向测验可以预测个体将来的工作绩效。部分人格测验可以预测个体将来的工作风格。而角色扮演、公文筐测验能够直接预测个体将来在同样的工作情境中的工作表现。
在实际过程中,测量工具的编制者还必须把测量目标转换成可操作的测量指标,这种转换过程称之为操作化或目标分析过程(purpose analysis)。
目标分析与测量目标是密切相关的。根据测量目的的不同,我们区别以下三种情况来具体分析:
1)对于有选拔和预测功用的预测性测量工具,它的主要任务是要对所预测的行为活动做具体分析,故称之为任务分析(task analysis)或工作分析。这种分析包括两个步骤:
首先要确定,为了使所预测的活动达到成功,需要哪些心理特质和行为。例如职业能力性向测验的编制,若某项工作包括打字,那么测量工具的编制者可以假定手指的灵活性、手眼协调等能力是必需的。这种确定可以通过参阅前人的工作从理论上分析,也可以通过对在某项活动中已经录用或已经成功的从业人员的行为进行分析后得出。当测验编制者确定某项工作需要哪些能力、技能或特质之后,他就可以编制测量这些能力或特质的测量工具。
其次,还要建立衡量被试成功与否的标准,这个标准称之为效标(criterion)。例如,用以确定一名运动员是优秀运动员的标准,就是效标。效标可以作为鉴别测量工具的预测是否有效的重要指标。
2)如果测量工具用于测量一种特殊的心理品质或特质,那么首先就必须给所要测量的心理和行为特质下定义,然后找出该特质往往通过什么行为表现出来。例如创造力的测量,有人将创造力定义为发散性思维的能力,即对规定的刺激产生大量的、变化的、独特的反应的能力。根据这个操作性定义,创造能力则可以从反应的流畅性、灵活性、独创性和详尽性这四个方面来测量。
3)如果测量工具是描述性的显示测验,它的目标分析的主要任务则是确定所要显示的内容和技能,从中取样。成就测验就是一种典型的描述性显示测验,它的内容分析可以利用双向细目表来完成。双向细目表(two_way checklist)是一个由测量的内容材料维度和行为技能维度所构成的表格,它能帮助成就测量工具的编制者决定应该选择哪些方面的题目以及各类题目应占的比例。如果要检查新员工培训班的培训效果,那就需要采用成就测验。这种成就测验的内容,就可以利用双向细目表来确定。为编制一个测量学生学习“测量工具的编制和实施”这一教学内容中的成就所编写的测量工具双向细目表的一个样例。
二、根据测量目标确定测量的内容和形式
在对测量目标进行分析之后,就可以根据不同情况确定测量的内容,即确定对个体的哪些行为和心理特征进行测量,并由此确定所采用的测量工具的形式。例如,用于选拔的测量工具要求对个体将来的行为进行预测,那么各种能力测验、人格测验、动机测验以及面试、情境模拟测验都是合适的。如果只想对培训效果或者员工的工作表现和对工作的满意度进行了解,那就需要分别采用成就测验、员工满意度测量、行为观察和团体健康度评定。
一般来说,测量的目标应当是明确的,测量目标决定测量内容,而测量内容又对测量工具的操作形式有所制约。例如,对成就、一般能力倾向、人格的测量可以采用纸笔测验的形式,而对个体的言语交流能力、社交能力以及机械操作能力采用纸笔测验的预测效果不很理想,最好采用各种操作性测量方法。
确定测量内容和形式是决定性的关键,它决定测量有效与否。下面列举一个针对测量目标进行具体测量内容和测量形式设计的实例:
例:某商场需要招聘一批具有一定工作能力、有敬业精神并且掌握一定专业知识的摄像设备的销售人员。
第一步——确定测量目标:对应聘者将来的工作能力、工作动机进行预测,并且对应聘者现有的专业知识(对摄像的知识)进行了解。
第二步——设计测量内容:根据销售员任职资格的要求,其工作能力可以分解为以下内容:言语交流能力、说服能力、推销技巧。对成就动机的测量可以预测应试者将来工作的敬业程度。另外,通过对摄像知识的考试可以测查应试者的专业知识。
第三步——设计测量形式:根据测量内容建议采用情境模拟测验形式对工作能力进行测量,用自陈量表形式对动机进行测量,并设计一项标准化的摄像知识的纸笔考试。
三、根据测量的对象确定题目的形式
在编制测量工具时,还应该考虑使用测量工具的团体的组成和特点,如被试(接受测量的个体)的年龄、智力水平、受教育程度、社会经济地位、文化背景、阅读水平等因素。测量工具针对的对象不同,测量工具采取的形式、题目的编写、测量题目的难度、取样的范围都可能有所不同。例如,如果施测对象是没有阅读能力的个体,在编制测量工具时应该考虑采用操作性测量的形式,而不能采用纸笔类测验。被试群体的特点有很多,到底哪种变量更重要,取决于测量工具的目的和类型。
第二节 题目的设计和测量的编制
测量工具编制过程中最重要也是最困难的步骤,就是题目的编写和收集。题目的编写要经历从编写、集编,到预试、修改,然后再试测、再修改,这样一个不断重复的过程,直到得到一套令人满意的、符合一定测量学指标的测试题。
至于编写多少数量的题目合适,根据经验,一般在客观题的测验中,为了可供筛选,编写出的题目应比实际需要多20%以上,如果考虑到以后还要不断筛选和修改,初次编写的题目量可以比实际需要的多出一倍到几倍。
一、测验题目的来源
在测量的内容及形式设计完成之后,就可以根据所设计的内容和形式要求来收集和编写题目。收集题目的方法有很多,包括从现成的测验中选取、按照现有理论设计、请专家设计等。
最简单、最直接的方法,是从已经出版的各种标准的测量工具中选择合适的题目。例如,编制能力测验就可以从已出版的包含所要测量能力的测验中选取题目。当然,这样做必须注意尊重原作者的知识产权。
现成的理论从来都是设计测验题目的重要参考。如编制态度测量量表,则有关态度的类型、定义等理论都有参考和指导作用。又比如,设计职业兴趣测验,可以按照斯特朗和霍兰德等人的著名理论构架,即把职业兴趣分为六大类型,来编制相应的题目。
专家无疑是设计测验的重要资源。在实际操作上,既可以直接延请专家出场设计题目,也可以参考专家的有关经验、建议或以往的工作。以人格测验为例,描述人格的术语可作为题目的来源。阿尔波特(Allport)等人曾总结出17953个描述人的特点的形容词,将这些词进行归纳后,就可作为编制题目的参考。
在收集题目时应注意几个问题:
1)题目的来源要尽可能地丰富,这样测量内容不至于偏颇,并能提高行为样本的代表性;
2)题目要有普遍性,尤其是成就测验,要保证所有施测对象都学过该测验中题目所包含的内容;
3)在编制智力或能力等本身不应体现文化影响的内容的测量题目时,要尽量避免文化背景差异的影响。也就是说,像能力测验这样的测量,应当对不同性别、种族、肤色、各种亚文化的群体具有公平性。
二、题目编写的原则
对测量工具题目进行编写要遵从某些一般原则,这些原则可以归纳为内容、语言、表达与理解这四个方面。
1.针对题目内容的原则
●要求题目的内容符合测量工具的目的,避免贪多而乱出题目;
●内容取样要有代表性,符合测量工具计划的内容;
●各个试题必须彼此独立,不可互相重复或牵连,切忌一个题目的答案影响对另一个题目的回答。
2.针对题目语言的原则
●使用准确的当代语言,不要使用古僻艰深的词句;
●文句须简明扼要,既排除与解题无关的陈述,又不要遗漏解题的必要条件;
●最好一句话说明一个概念,不要使用两个或两个以上的观念;
●意义必须明确,不得暧昧或含糊,尽量少使用双重否定句。
3.针对题目表达的原则
●尽量避免主观性和情绪化的字句;
●不要伤害被试感情,避免涉及社会禁忌或隐私;
●避免诱导和暗示答案;
●避免令被试为难的问题(被试没有明确结论或羞于启齿的问题)。
在对人格和态度测验的题目编写过程中,有时会难以避免地涉及一些敏感性问题,如性关系、自杀倾向等。被试对这些问题的回答往往容易依照社会规范来回答,这就是回答的社会赞许性倾向的问题。社会规范告诉人们应该做什么和不应该做什么,如果被试的回答有违规范,他就会担心得不到社会赞许,甚至使他人对自己形成不好的印象。在这种担心下,被试就可能作出附和社会规范,有利于自我形象的虚假回答。为了解决这个问题,菲力普斯(Derek L。Phillips)列举了几条防止出现规范性答案的策略:
1)因为从心理上讲,否定一个答案比肯定它更为困难,所以命题假定他具有某种行为,使他不得不在确实未有该行为时才予以否定。如,“你多久才有一次违反工作规程?每天一次?每周一次?每月一次?从不?”
2)假定对规范无一致意见。如,“有些医生认为饮酒有害,而其他一些医生则认为有益,你认为如何?”
3)指出该行为不是异常的而是普遍的,即使它可能有违规范,也是多见的。如,“多数人都有一定的离婚倾向,你呢?”
4.针对题目理解的原则
●题目应有确切答案,不应具有引起争议的可能(创造力测验、人格类测验例外);
●题目内容不要超出受测团体的知识和能力范围;
●题目的格式不要引起误解。
三、题目的分类
题目的种类很多,根据被试所作出的反应(回答)方式进行分类,可以分为提供型和选择型题目。
1)提供型题目(self_produced answer question)要求被试提供答案,如问答题、填充题。另外,各种操作性题目,如画图、表演、完成某项任务、回答问题等,都可以算做提供型题目;
2)选择型题目(selective question)则要求被试在提供的备选答案中选择正确答案,如是非题、匹配题、选择题。
由于操作性题目往往没有什么固定模式,所以本节主要介绍纸笔类测验的题目类型。
一、问答题例
指示语:试以2000字说明下述问题:
1.比较问答题和客观题的优劣。
2.解释进行课堂测量工具项目分析的理由。
二、填充题例
指示语:在每个空格内填上合适的字句:
1.客观测量工具的客观性的关键是:
……
2.编制一个预测某种工作成功程度的测量工具的第一个步骤是:
……
三、是非题例
指示语:如果该题正确,请在“是”上划“√”;若该题不正确,请在“否”上划“√”。
是 否1.心理测量工具只是心理测量的方法之一。
是 否2.社会赞许性反应是一种由于被试在一项特质上评了高分,而在另一项特质上也评高分的倾向。
四、匹配题例
指示语:请在右栏选择合适的答案的编号,填在左边每题的编号前。
1.团体智力测量工具
2.个体智力测量工具
3.兴趣问卷
4.人格问卷
5.线性相关
6.感知觉测量工具
a。比奈
b。达尔文
c。高尔顿
d。欧提斯
e。皮尔逊
f。罗夏克
g。斯皮尔曼
h。斯特朗
i。伍德沃斯
五、选择题例
指示语:下面哪个答案最合适?
1.“决不”、“有时”、“总是”等定语,常常会对毫无所知的被试产生暗示作用。我们称这些词语为
a。普通修饰词b。连词c。反应定势d。特殊决定词
2.某女孩,年龄8岁4个月,心理年龄为9岁,她的IQ是多少?
a。88b。90c。108d。120
四、常用题目类型与编制要领
1.问答题
问答题的主要优点在于它能够测量被试组织材料的能力、综合能力和文字表达能力,有的甚至可以测量评价能力和创造能力,而这些能力是其他客观题难以测量的。相对来说,问答题有几大优势:
●较好编制,题目无需太多;
●不需准备备选答案,答案是由被试自己生成的;
●可以避免被试随机猜测答案的可能。
但是,问答题的问题也很突出:
首先,问答题一般回答时间长,占分数大,因此题量不宜太大,所以能测量到的内容也有限,对行为的取样受到局限。由于取样代表性差,则可能使被试偶尔对某个论题碰巧很熟,得到“虚假的高分”,而另外一些被试碰巧不熟,而得低分。因此造成成绩的偶然性,其结果的信度自然就会受到影响。
其次,问答题的评分标准也不容易标准化。相对来说,评分者在掌握评分方法时可能有相当的主观性,而且不同评分者的评分结果很难保持高度的一致。已有许多研究发现,不同评分者对同一答案的评分一致性相关系数仅在0.62~0.72之间。同一评分者对两份等值的答案的评分信度更低,仅在0.42~0.43之间。即使同一评分者在隔一段时间后再评价同样的测验,也会前后评分不一致。
再次,问答题的评分容易受书写的整洁程度、个人成见等无关因素的影响。这可能是评分者非客观性的主要来源之一。一方面,卷面形象可能使评分者形成印象分,影响最终评价。另一方面,问答题的阅卷比较费时,对评分者的耐心和仔细程度是个挑战。
一般来说,在可以用客观题施测的情况下,尽量不要采用问答题形式。如果需要采用问答题施测,题目编写者应该使问题及评分标准尽可能地客观,在编制时应注意以下几点:
●问题应清楚而且明确,使被试了解答题要求;
●题目的数量不要太多,以免变成速度测验;
●在编制题目时应该有一个理想答案或一系列答题标准,同时对另外一些可接受的答案应有所规定和说明。
2.选择题
选择题通常包括两个部分:一是题干,即呈现一个问题的情境,由直接问句或不完全的陈述句构成;另一部分为选项,即对问题的几种可能的回答,包括正确答案及若干(一般1~5个)错误答案,这些错误答案叫做诱答,其主要作用在于迷惑那些无法确定答案的应试者。
选择题适用于文字、数字和图形等不同性质的材料,可以考察记忆分析、鉴别推理、理解和应用知识的能力,也可以考察对某一事物的看法和观点。选择题的主要优点包括:
●适用范围广,从一般知识到复杂能力的测量均可使用;
●题意明确,被试的反应简单,容易计分;
●与其他形式的客观题相比,更少受猜测和反应定势的影响,评分较为客观;
●选择题的题量可以较大,考察的范围更广,取样代表性较高。
选择题的不足之处在于诱答难以编制,诱答的数量要求多,而且还要似是而非,让那些不知道正确答案的被试感到无从选择,这相对来说较为困难。另外,通过选择题较难测出个体组织能力、表达能力和创造性等特点。
下面是编制选择题的一般原则:
1)题干所提出的问题必须明确,使用简单而且清晰的用词。做到即使被试不看选项的情况下,题干本身的意义也是完整的。
2)不要将选项夹在题干中间,或者在题干前出现与问题无关的材料。
3)选项要简练,尽量将选项中共同的词句移至题干中。这样不仅可以使题意清楚,而且可以减少被试的阅读时间。
4)除特殊情况,所有选项的长度应该大致相等,而且与题干的联系要紧密。否则,本来正确的答案可能会因为逻辑上或语法上与题干不一致而被错误地排除。
5)避免在题目中出现帮助受测者猜测正确答案的线索,例如,不应将正确选项描述得比诱答详细得多,应避免出现两个意义相同的诱答等等。
6)对于人格和态度的测量工具,题干的陈述应该不带任何倾向性,例如:
俗话说“三人行,必有我师”,你认为同伴间相互学习:
(a)很有必要,可获得广泛的知识;(b)帮助不大,浪费时间。
这样的题干会导致被试倾向于选择社会赞许性高的选项。
7)如果选项是数字、日期、年龄等有逻辑顺序的材料,则最好仍按顺序排列,否则应随机排列。另外,所有选项最好形式相同,如同为数字、时间、人名、地点等,长度、难度应大致相同。
8)答案在选项中的位置应当随机出现,没有任何规律,避免被试猜测。
3.是非题
是非题的共同特征是只有两种可能的反应,其中一种是肯定的(同意、正确、是),另一种是否定的(不同意、错误、否)。因此是非题可以当做是只有两个选项的选择题。
是非题容易受被试反应定势和猜测的影响,测验分数的可靠性不如选择题。所谓反应定势(reaction set)就是指部分被试在回答问题时,其答案的选择建立在题目的形式或位置上(如偏向正面回答或否定回答),而不是建立在题目内容的基础之上。另外,是非题仅有两种答案,即使猜测,也有50%答对的可能性。如果还有其他额外的线索,猜对的可能性还会更高。弥补这一缺陷的方法之一,是加大题目数,使每一题目分数的偶然性对总分的影响相对减小。
当然,是非题也有其长处。它能很快书写和阅读,因此题量可以较大,便于广泛取样;记分也比较客观。在能力测验中,是非题多用于只需快速粗略判断被试能力的情况。在人格测验中,多用于只需判断一般普遍行为的问卷中。
编写是非题时要注意以下几点:
1)测查的内容应以有意义的事实、概念或原理为主,不要考察被试对无关紧要的问题或琐碎的细节的辨别能力。
2)每道题只能包括一个重要的概念,避免两个以上的概念出现在同一题目中,造成“半对半错”或“似是而非”的情况。而且还要把各个概念放在题干的重要位置上。
3)决定一个题目是否正确,应以重要的概念为基础,不要着重于对次要的或琐碎的观念的判断。
4)除特殊情况,尽量避免否定的叙述,尤其是要避免双重否定的叙述。因为采用否定的叙述容易使人困惑,否定词也容易被一些粗心的被试所忽略。例如,题目“猜测的校正不是永远不可以使用的”就不如改为“我们有时可以校正猜测”。
5)测验中正确的题目与错误的题目,它们的长度、复杂性应尽量一致。
6)正确的题目数与错误的题目数应该基本相等,两种题目应按随机方式排列。
4.匹配题
匹配题可以说是选择题的一种变式。匹配题一般包括多个反应项(匹配项)和多个刺激项(被匹配项),用反应项来匹配刺激项。匹配题有完全匹配(刺激项与反应项的数量相等)和不完全匹配(反应项目多于刺激项目)两种形式。通常,刺激项目和反应项目分别排成两列。
匹配题容易编制,而且可以在短时间内测量大量相关联的材料,覆盖面较广。但它一般只能测量简单记忆的事实材料或概念关系,并且要求编制的选项必须是同质的。
下面是对编制匹配题的一些建议:
1)刺激项目和反应项目应该分成两列,通常反应项安排在右边;
2)配对数目不可过多或过少,最好使用不完全匹配,使反应项数目多于刺激项数目,并且最好不限制每个反应项被选择的次数,这样可以降低猜测的概率。一般可以列举6~15个项目,其中反应项应比刺激项多2~3项。
3)匹配题的反应项与刺激项,其性质必须相近。选项如存在逻辑顺序,应按顺序排列。
4)应对匹配方法、匹配的依据加以明确的规定和说明,同时说明反应项可以被选择的次数。
5)同一组的反应项与刺激项最好印在同一页纸上,以免造成答题时间的浪费。
6)反应项与刺激项应以不同形式的序号加以标识,例如在反应项前冠以数字,刺激项前则冠以英文字母或甲、乙、丙、丁,以免混淆。
5.填充题
填充题是提供型的题目,它要求受测者用一个正确的词或句子来完成或填充一个未完成句子的空白,或者是提供一个正确的答案。填充题比较容易编制,不受猜测的影响,在评估专业知识方面特别适合。另外,在前面介绍的投射测验——“语句完成测验”中也用到填充题。当然,填充题也有其局限性,它不能测量更为复杂的知识和能力,题目有时也会有多个答案,计分不能完全客观。
下面是编制填充题时应注意的几个方面:
1)最好采用问句形式。如果需要使用未完成句子,则填充处应尽量放在句子末尾。
2)使用直接问句的形式,可避免产生对题意的误解。例如:
差:卢沟桥事变发生在()。(可以填地名、抗战前或年份等)
好:卢沟桥事变发生在哪一年?(只能填年份)
3)如果是填空形式,填充处不可太多。过多空白会使题意不明确。
4)每题最好只有一个答案,答案最好简短而具体,有利于评分。
6.操作性测量形式
在很多情况下,操作的方法和过程是重要的测量目标,而这是纸笔测验无法测量的,这时可以采用操作性测量形式。操作测试题要求被试对未来真实情境中的行为进行模拟,其真实性要高于纸笔测验。
操作性测试题通常分为着重过程和着重结果两种形式。考察仪器操作、演讲、演奏乐器和其他各种技艺,就需要采用着重过程的形式,这些内容需要在工作过程中进行评鉴。而有些活动则要在活动结束后考察结果,例如文章、图画等。当然,也有的需要同时考察过程和结果,如工作样本测验。
操作性测试有多种不同的分类方法,按测试情境的真实性程度可以分为:
1)纸笔的操作性测试:虽用纸笔但偏重于模拟情境下知识的应用。如编制、编写某项操作计划、步骤、注意事项等,如公文筐测验。
2)模拟操作测试:强调正确的程序,被试需要在模拟情境下完成与真实活动相同的动作,如驾驶员的考核等。
3)工作样本操作测试:其真实性最高,包括了真实作业的全部要素,但是是在有控制的条件下去完成的。如司机在标准场地内的考核,师范学生的教学实习等。
设计操作性测试题的主要原则有:
1)明确所要测量的目标,并将其操作化。即要进行工作分析,辨认出操作中最重要的因素,找出具有代表性的工作样本。
2)要建立作业标准,规定通过此项作业的最低标准。如操作的准确性(误差多少)、速度(时限多少)、步骤的正确性或某些主观品质(如熟练程度、优秀水平),这些都应该操作化。
3)选择合适的真实性程度。通常情况下,真实性程度越高,模拟的代价越大。应根据所考核目标不同,选择不同真实程度的测试方法,以便在最节省的前提下获得最多的信息。
4)指示语简单明确,让被试知道要干什么和在什么条件下去做。
5)有明确的计分方法。
操作项目的计分有不同形式,差别很大。有些项目根据完成题目的数量和错误次数客观计分就可以了,有些项目的评分则较为困难,这种项目可以采用“作品量表”来计分。作品量表(standard sample scale)一般包括一系列按顺序排列的不同作业程度、水平、质量的标准样本,评分时参照这些标准样本对被试结果进行评分。如果被考核的操作活动可以分为多个方面或几个步骤,则可以按每个方面或步骤完成的情况分别给分,最后统计总分。
7.面试
前面曾说过,面试是目前在企业及各类组织中最流行的考察手段。但面试的考核缺乏心理测量学的严格性,易受考官的个人偏见或歧视的影响。不仅如此,由于面试既要看应试者对问题回答的内容、质量,还要看整个面试过程中的行为表现,如情绪紧张度、应变能力等,更加大了面试记分的难度。因此,面试效果的好坏往往取决于面试考官。所以,面试考官必须对面试主题有充分的了解,对于所要求的反应有清晰的认识。另外,用于描述或评定被试反应的词语,必须具体化,避免模糊不清的陈述。
对于结构化面试,其面试问题都是预先确定的。对问题的编制要注意问题明确性,同时,对于需要掌握细节的问题,一定要设计若干追问问题。其他原则与问答题的编制类似。
第三节 题目的编排
在测试题目编写完成之后,下一步就是对题目进行编排。经过认真的编写,测试题可能在内容和形式上初步达到了要求,但还必须根据测量工具目的、性质与功能,对原始测试题进行选择和编排。这种选择和编排过程包括定性的逻辑分析和根据预测的结果进行的定量分析。
一、题目的选择
对题目进行初步选择的主要依据是:题目本身的性质、对预期测量目标的可测量程度。这一步可以细分为如下几个步骤:
1)检查题目是否符合细目表中某一单元格内容的要求。
2)根据细目表对各部分所要求的比例选择适当数量的测试题,使测量工具尽量覆盖整个细目表的内容。
3)检查题目是否叙述明确清楚,是否提供了额外线索。
4)检查题目十分适合将要施测的对象和施测的条件。
5)检查题目的难度是否恰当,一般来说,难度定为0.50(50%的人答对此题)较为合适(对能力、技能类的题目要求除外)。
6)检查所选择的题目是否彼此独立,没有重叠,即回答某一问题所需的知识与能否回答其他问题无关。
在选择题目时还要注意测量工具的长度。在一个测量工具里究竟包括多少题目比较合适,既要看是否能完全满足测量目的的要求,也要根据测量工具的时间限制和被试的年龄和阅读水平而定。通常应该在正式预试前,挑选几个被试对测量工具进行预测试,以观测测量工具所需时间,并对测量工具长度进行调整。
二、题目的编排
在对测试题初次选择完毕之后,就应决定如何对选出的题目进行最佳编排。测试题的编排方式因测量工具的类型不同而有所差别,下面是题目编排的一般原则:
1)将测量相同因素的测试题排列在一起。
2)尽可能地将同一类型的测试题组合在一起。这样只需对每一类型的试题作一次说明,也方便被试的回答,同时还可以简化记分工作和对题目的统计分析。
3)难度测验的题目应按由易到难排列,这样可以鼓舞被试的士气,避免某些被试一开始就因较多题目回答不出而失去信心。这种安排也可以使被试熟悉反应程序,解除紧张情绪,同时还可避免被试在难题上耽搁较长时间而影响了后面的回答。
4)对于人格测验,应尽量避免将测量同一特质的题目编排在一起,防止被试猜测出题目所要测查的因素。
三、测试题的预测试和分析
测试题编排完成并不意味着这项测量工具的编制就此完成。前面对题目的选取只是依靠编写者的主观经验,题目的效果如何还需要进行定量的客观分析。这时的测试题还只能叫做预备测试题,还需要获取被试对这些题目的反应的材料,为进一步筛选题目和为编排测量工具提供客观依据。也就是说,必须将预备测试题对一定规模的小样本被试进行施测,获得数据以进行校验、修订。这一过程称为测试题的预测试(pilot test)。数据收集上来之后,就应该利用这些数据对题目进行分析,删除不好的题目或对题目进行修改,这个过程称为题目分析(thematic analysis),具体内容包括对题目的项目分析和对测验信度、效度指标的检查。有时候,题目需要经过多次预测试和分析,不断修改后才能达到测量学的要求。
对测试题的预测试应注意以下问题:
1)预测试对象必须和将来正式测试的对象相似,取样应注意其代表性,人数不必太多,但不能太少,一般不应少于30人。
2)预测试的实施过程与情境应力求与将来正式测量工具实施时的情况相似。
3)预测试的时限可稍宽些,最好使每个被试都能将题目答完,以便搜集充分的反应资料,使统计分析的结果更为可靠。
4)在预测试过程中,应将被试的各种反映情况随时加以记录。如,记录在不同时限内一般被试所完成的题目数、题意不清之处、被试的态度等,以便在修改测验时作为参考。
预测试完成后,可以根据预测结果进行题目分析,对每个题目的具体分析称为项目分析(item analysis),主要是指根据题目的难度、区分度、备选答案的合适度等数量指标来对题目进行分析(详见第九章“项目分析”)。根据分析结果,再对题目进行选择,最终编制出较好的测量工具。
四、测验使用手册
任何标准化的测验都必须提供给用户相应的说明书,即测验手册。测验手册对如何使用该测验进行说明,是测验使用说明书,同时也是用户评价、比较测验优劣的重要依据。
测验手册的内容一般包括:
1)测验的一般信息:标题名称、作者、施测形式、记录形式。
2)测验目的和作用。通常手册应指出测验可作何种用途,如选拔、指导、评价,适用对象,以及所测量的内容,如测量何种能力、特质等。
3)测验编制的理论背景和题目的来源。一些手册还提供选择题目的统计指标。
4)测验的实施方法、时间要求及注意事项,包括对施测现场环境的要求、指示语和对主试的训练要求。
5)测验的标准答案和记分方法。
6)常模表、常模适用团体及测验计分系统、解释系统,以及样本的选择方法。
7)测验的信度资料和效度资料,以及这些资料取得的条件和情境,包括调查的样本和时间。
测验使用手册可以说是测验的“门面”,其编写的好坏、形式十分重要。一个测验的编制、修订可能花费巨大的时间、精力、财力,但最后的主要表现形式却很简单,往往只是一个使用手册和题本,使用者往往只是从这些形式上了解测验的价值。因此,编写使用手册一定要到位,充分体现测验的功能、意义。
重要概念和术语
显示性测量
预测性测量
目标分析过程
任务分析
效标
双向细目表
提供型题目
选择型题目
反应定势
作品量表
预测试
题目分析
项目分析
讨论题
1.显示性测量和预测性测量的区别是什么?对测量的要求有什么不同?
2.请讨论目标分析的意义。它和任务分析的分别是什么?
3.以营销人员为例,请设计一个招聘用的测量内容双向细目表。
4.请讨论题目编写的原则。其中有哪些涉及伦理性原则?
5.用选择题形式的测验能否测量组织能力、表达能力?为什么?
6.是非题猜测的可能性较大,有什么办法可以降低这一影响?为什么?
7.如果你要组织一项对本企业销售人员营销知识的测验,你会采用哪些形式?为什么?
a。问答题;b。选择题;c。是非题;d。填充题
8.有人认为,面试有很好的效果,很容易甄别人才。你的看法如何?请将面试同其他测量方法进行对比。
9.什么叫“作品量表”,其功能是什么?根据你的经验,你所接触的哪些职位的招聘可以采用作品量表法?
10.为什么要做预测试?