Borman(1978)认为评分形式或格式是造成评分不能变得更稳定或更准确的四个潜在原因之一(其他三个原因是缺乏观察行为的机会,缺乏对评分错误的理解和组织上的限制)。理想情况下,评分表应该能和测评师的心理过程相容,而不需要他们做他们无法做出的判断。几位研究者(Baker,1986;Campbell,1986;Louiselle,1986)提出,传统的描述性报告之外的测评形式能够通过简化对测评师信息加工方面的要求来提高评鉴中心的准确性。Louiselle(1986)还比较了传统的描述性行为报告表和预先制定的行为列表对每一个练习后指标评分间相关程度的影响。对于通过叙述性报告得到的评分结果,因素分析的结果表明,对测评师评分的最佳解释同时包含了指标和练习信息。然而,对于行为列表评分来说,还没有合适的解答这些信息的方法。
这样,叙述性报告的格式被证明在指标评分上具有聚类效度和区分效度。然而,行为列表却没有相应的证据。这种情况下,行为列表缺乏有效性,可能是由于无法在坚实的理论和经验基础上充分地构建行为造成的。
Baker(1986)和Campbell(1986)分别比较了使用行为列表和使用行为锚评分量尺(BARS)得出的指标评分(行为锚计分量尺是一种包含数量等级和特定行为,代表好、中、差的行为表现的计分形式)。Baker发现,对于无领导小组讨论,通过行为列表得出的练习内指标评分有更高的区分效度,而对于有角色的小组讨论则通过BARS得出的练习内指标评分有更高的区分效度。而且,对两种类型的小组讨论,行为列表的方法在练习内具有更高的指标间相关性。Campbell则发现BARS具有很高的区分效度,但两种形式都没有表现出高的聚敛效度。
总的来看,这三个研究都指出了各种评分形式对评分者判断产生的影响。然而,这些缺乏一致性的研究数据无法决定是否存在一种“优异的”
评分形式。对绩效评估的研究(Bernardin&Beatty,1984;Murphy&Cleveland,1991)也得出了相同的结论,即没有一种形式比其他更为优越。
练习评分
在研究者看到练习内指标评分存在的问题后,有人提出应该放弃对单个指标评分,代之以对某个练习中的表现进行总体评分——在评鉴中心里加入一个测评师对每个练习中的总体表现进行打分的全新的步骤。我们应当分析这种总体评分的质量并讨论他们的价值,之后这种变化才有可能得到广泛承认。
测评师的一致性
表6.4列出了一个有代表性的研究,研究分析了几个评分者之间就不同练习中的表现达成的一致性。研究显示:无领导小组讨论和商业游戏的一致性高低不一,角色扮演和公文筐练习的一致性很高,而演讲的一致性则较低。在Borman(1982)的报告中所有六种练习的平均一致性为0.76。
这些研究表明不同的测评师在评价练习整体表现时表现得比较一致。此外,测评师似乎对某些练习中达成一致的程度要胜过其他练习,但是对这种现象还没有合理的解释。
在两种不同类型的测评师之间的一致性同样得到了测量。Greenwood和McNamara(1967)发现,专业和非专业的观察者的组间一致性为0.12到0.81。尽管一些信度很低,但两种类型的测评师在评分者信度上并没有显着差异。Gatewood等则研究了一组有经验的测评师和三组经验相对欠缺的测评师之间的一致性——组间的一致性为0.66到0.84。两个研究都表明“专家”和“非专家”都赞同彼此对于练习整体表现的评价,尽管在一些对比中这种一致性比较低。
预测准确性
Bray和Grant(1966)发现,测评师对于无领导小组讨论、商业游戏和公文筐练习的整体表现的评价不仅与对测评对象的许多更宽泛的评价存在着相关(相关系数从0.3到0.5),还和对测评对象管理潜质的评价存在相关。Konz(1988)发现所有九种练习的评分和测评总体得分存在相关。与此相同,许多其他的研究(Borman,1982;Tziner和Dolan,1982)也发现单项练习中的得分和最终的测评得分存在相关。Borman(1982)以及Tziner和Dolan(1982)则发现练习间评分和培训中的表现存在高相关,但Borman,Eaton,Bryan和Rosse(1987)却又没有发现这样的结论。
支持练习评分和工作行为的相关性的证据相对较少。Wollowick和McNamara(1969)发现两组练习以及一个公文筐练习同管理级别的变化有显着相关,但Outcalt(1988)发现有五组练习只是和工作级别或薪水级别的改变有轻微的相关。另外三个练习中则并未发现工作业绩和练习评分之间有练习评分相关,或者仅仅只有低相关(Hinrichs&Haanpera,1976b;Konz,1988;Outcalt,1988)。
这样,练习评分似乎可以准确地预测最终的测评得分,并且对于培训中的表现也是一个比较准确的衡量指标。然而,练习评分和最终的测评得分只是最低程度的相关,并且他们和后续的晋升以及业绩的相关关系太低,目前尚难以保证其应用的价值。
其他关于准确性的证据
有五个研究检验了几种练习的评分之间的关系,来考察不同的练习能在多大程度上测量相同或不同的概念:Konz(1988)研究了九种练习的评分,发现平均相关系数为0.21;Borman(1982)发现,四种练习中的评分中涉及一对一的角色扮演的彼此相关性最高(平均为0.48),而结构化面试和单个公文筐练习的评分和其他练习的相关性最低(和其他四个练习平均相关系数为0.26);另一个研究(Tziner&Dolan,1982)发现,五种不同的练习的相关系数从0.38到0.63,其中无领导小组讨论和角色扮演练习最为相似;Bray和Grant(1966)发现商业游戏的评分(以及评级)和无领导小组讨论评分的相关系数中等;Moses(1973)则经过研究得出结论,评鉴中心过程中的某个竞争性团队练习与合作性团队练习存在中等的相关。
总而言之,似乎对不同练习中表现的评分彼此间存在中等程度的相关,并且相似练习之间的评分相关性(如小组练习)要比不相似练习(如小组练习和个人练习)之间的评分相关程度高得多。练习评分的相似性可能由实际表现出来的相似性造成,也可能由某种人为倾向性造成。这些倾向性可能和一些批判观点所认为的“导致练习内指标评分高相关的倾向性”类似。
练习评分的准确性也可以通过检验他们和其他变量的相关性来衡量。
Borman(1982)发现,测评师的评价和第一印象、外表以及喜好程度的相关很低。这些发现能够得到有力的解释,因为整体的练习评分并不测量无关变量。Tziner和Dolan(1982)则发现在五种测评练习和三种智力测验之间存在0.30的相关,这些结果表明高智力的测评对象比智力相对较低的测评对象总体上获得的测评分数更高。
这样,尽管练习评分可能反映了表面特征(例如外表)以外的东西,智力可能仍是一个影响练习评分的潜在的因素。这些研究发现支持了Klimoski和Brickner的假设(1987),即评鉴中心测量了管理智力(managerialIntelligence)。然而,我们需要更多的此类研究,以便我们能够得到关于练习评分的内在因素的更为可靠的结论。
对其他方法的评论
很显然我并不支持对传统评鉴中心过程的修正。已经尝试的这些变革仍然没有得到充分的研究来赢得赞同。更多的研究可能会证明它们的效用,而它们也可能确会大受欢迎,但迄今为止,我们仍应当非常小心地对待传统方法的变式,并且我们应当以质疑的眼光看待它们。当然,这并非意味着我们无法为测评师提供许多的辅助手段来帮助他们培训、判断和最终做出评估。事实上,这些辅助手段在本书中多次被提到。
本章小结
这一章给出了大量关于测评师如何观察、界定和评估行为的实践、研究和理论。对于评鉴中心的各个步骤有各种支持证据:一些理论和研究证明了这些过程的准确性,其他一些理论和研究则不然。这些非支持性的证据表明,有必要改进评鉴中心方法,并且人们提出了许多变式。
从目前的一些实际操作中,我们可以看出一个趋势,即在评鉴中心过程中后期的步骤在一致性和准确性上更高,这些步骤中大量的数据得以积累。换言之,单个测评师在评价单个练习中单个维度上少量行为时的准确性并非很高。相对的,当对许多练习中的多个样本的行为做出判断时,准确性会大大提升。例如,对总体得分的评价的准确性和一致性要比练习内评分高。
我们会在下一章再度提到这种趋势,其中我们将会检验并整合若干位测评师判断的过程。有证据将会更清楚的表明,最终的对单个维度的评分和整体的评分会有更高的一致性和准确性。
这一章对理论和研究的回顾得出了如下结论:测评师能够并且的确在评价参与者表现时遵循一种行为取向的方法。评鉴中心方法和以下几方面的理论判断是基本一致的:1)特定行为事件对人类知觉的影响;2)记忆关于个体行为事件的细节信息;3)观察者使用特定的行为信息来评价给定维度上行为表现的能力。
尽管关于评鉴中心过程中如何观察和界定行为的研究并不多,对于测评师判断的研究仍然提供了支持性和非支持性的证据。这些证据表明测评师进行评分的能力是可靠的。从积极的角度来讲,测评师最终的评分显示了一定的一致性及测评结果与后续工作业绩的关联效度。另一方面,练习内指标评分的信度各异,聚敛效度和一致性无法证明其在测量单个管理才能上具有准确性。对此,主要原因似乎是练习内指标评分和该练习内其他指标评分的相关系数高于它和其他练习相同指标上评分的相关性。这种关系模式并不如它乍看上去那么糟糕,因为研究表明这些发现可能是所使用的评鉴中心方法本身造成的。如果使用行为报告法(相对于练习内指标评分法),测评师似乎能够将他们的观察和指标更一致地结合在一起,但是这样测评师能够处理的指标数量就很有限——测评师很可能在观察和界定行为时,对六个或七个指标难以给出有意义的区分。
用以证明练习内评分无法准确测量单个管理特质的证据可能有用,也可能没用。这取决于评鉴中心的目的到底是什么。如果评鉴中心的目的是对预测个体的发展,那么单个指标评分的准确性是次要的,单个指标的评分只是一种在得出总体评论之前将评分结构化的手段。如果评鉴中心的目的是给出单项能力的优势或发展需求诊断,那么我们需要对这些单项指标做更为精确的测量。在这种情况下,评鉴中心的设计必须做到:能够对单项指标进行准确的测量、必须明确每个指标的定义、对测评师进行充分的培训、必须保证有足够的练习对每个单项指标进行测量从而获得大量的信息;建议采用行为报告法。
推荐在评鉴中心过程中使用行为报告法,主要原因在于:这种方法会影响测评师讨论和整合信息的过程。下一章会专门论述测评师讨论的过程。
第六章论述了每一个测评师进行观察和界定行为,回忆信息以及对评鉴中心的表现下判断的过程。上一章还描述了一个测评师如何在整合讨论中汇报他们的观察结果,然后形成初步的整体评分。至此,我们所探讨的仍然是个人判断的必要组成部分。接下来我们将会转向团体过程,在这其中测评师将整合他们的个人判断。
评鉴中心操作
评鉴中心过程的最后一步涉及团体决策。测评师聚到一起讨论初步的整体指标评分,并且形成最后的意见。这样,在一些评鉴中心里,这些指标评分被整合到一起,形成一个整体测评评分。
获得最终的整体指标评分
测评师们将就他们初步的整体指标评分进行交流(通常将它们放到一个书写板上),并依次讨论来解决分歧。其中会产生几种可能的评分模式:
当存在整体的一致性时(例如所有测评师都给了4分),这样整合过程就很直接,参与者就得到了4分;另一方面,如果在评分之间有区别,那么有必要进行讨论。也许有人会认为这个阶段达成一致是很有必要的,但也有些关于团体讨论的研究表明,这个阶段的不一致可能是有益的,并且可以导致最终的讨论中准确性大大提高(Libby,Trotman&Zimmer,1987;Rohrbaugh,1979;Sniezek&Henry,1989)。“不一致”的背后可能存在着多种可以导致决策更佳的有效意见(Wanous&Yountz,1986)。
传统的评鉴中心法需要团体达成一致。在这种背景下,一致性意味着每一个测评师都能够接受评分,并视其为对行为表现的一种充分的表征。
当然,一致性并不意味着每一个测评师都需在评分上达成完全一致。