(Byham&Temlock,1972)包括仔细地审视,以保证决策策略能够较为长久地保持作用。评鉴中心的主试应该在实际操作中观察测评师讨论的一个样本,观察前面提到过的恰当的整合程序是否得以执行。
团体动力
团体讨论中必须警惕在本章前面部分提到的一些有害的过程。
Hoffman(1978a,b)曾指出了许多能够阻碍团体中问题解决有效性的因素,包括指向封闭性、妥协性的压力以及无领导的非正式讨论结构。大部分的测评师队伍是临时组建的,只为一个特定的评鉴中心而存在,这样,基本不需要担心由于讨论造成的不良感觉会带到以后的工作中。而且,测评师的讨论过程大多遵循Hoffman提出的一个如何有效地解决团体问题的程序:摆出并商讨所有的想法,鼓励争论——也就是说团体讨论应利用观点上的差异来增进对测评对象的理解。
测评师讨论过程同样遵循了许多人们提出的关于讨论中如何形成有效的团体动力的建议。例如给人们指派“魔鬼代言人”的角色(Schweiger,Sandberg&Rediner,1989),专注于行为记录而不是提出意见的成员的个人身份(Janis,1982)等。令人感到鼓舞的是,有研究表明,测评师的个人特质并不会改变他们对其他测评师的影响力:无论他是处于边缘还是权威性的地位(Neidig&Martin,1979),是男还是女,是否为团队里的头号人物(Sackett&Wilson,1982)。
和信息相关的思考
关于说服的理论同样能帮助我们理解团体在什么样的条件下进行信息加工。根据Petty和Caccioppo的研究(1986),我们所接受的信息可能得到非常系统的加工(例如加工得非常仔细和彻底),也可能只是得到粗略的加工(例如加工得很快,只使用到简单的原则)。如果人们得到足够的激励,并且能够仔细地思考信息和手头问题的相关性,那么他们就会进行系统的加工。有几个因素能激励个体,使其参与到系统的思考中:材料的相关性、信息的反复呈现、足够的关于讨论主体的知识、先前对组织材料方法的学习以及实事求是的态度(也就是追求一个相对于较易被接受的观点的正确途径)等。测评师是一些有经验的管理者,他们对于作为一个概念框架的指标有清晰的理解,他们会将行为证据列入考虑范围,其目标是在没有外部压力的情况下得出对于每一个测评对象准确的评价。此外,测评师还有充分的时间关注测评的效果。
更值得一提的是,当使用系统的思维方式时,人们不太可能受到他人地位和外表的影响。这个观点得到了我们先前引用的评鉴中心研究的支持,这些研究表明测评师的性别和地位并不能决定他们在整合讨论中的影响力。
总结
有许多的理论和研究证据支持:在测评师整合讨论中,决策过程能够促成良好的决策。许多导致过程效益的因素在测评师讨论过程中都存在,但这并不代表这些因素的的确确得到了贯彻。一个差劲的整合讨论可能受到了许多条件的影响,而这些条件将会导致糟糕的决策。我们必须关注实验证据,以检验整合讨论最终得出的指标评分和整体评分的质量。
评鉴中心研究
我们已经看到了评鉴中心法带来的有利于团体讨论决策的条件。这一节我们将总结关于测评师最终决策的稳定性和准确性方面的研究。结果表明,最终的指标评分有高度的一致性和准确性,而整体的测评评分能够预测大量的衡量管理能力和成功的指标。这一节还会给出其他的一些证明这些评分准确性的证据。
对于大部分的评鉴中心而言,最有意义的结果是最终的指标评分和整体的测评评分。指标评分可以用来诊断优劣势、规划测评对象的培训项目以及提升他们的管理技艺,整体的测评评分则可以用于选拔和晋升决策。
下面一节将会回顾大量说明这些评分质量的研究,其中测评师使用的是传统的一致性讨论的方法。
最终整体指标评分的质量
在上一章里我们提到了,有趋势表明,当评鉴中心是基于对大量信息的整合时,其评分会更为稳定且准确。测评师给出的练习内指标评分的稳定性和一致性要低于基于对多个练习的观察所得出的评分。
类似地,我们将要检验的这些证据表明,最终的整体指标评分具有较高的稳定性,并与对管理能力的测量(和评鉴中心同时进行)有一定程度的相关。我们可以看到,尽管测评师在试图得出一个整体指标评分时似乎只能用到有限的几个指标的评分,他们通常仍会使用超过一个的指标。统计分析表明,测评师只需要少量的几个指标来支持他们的决策,但是在这里要重申的是,指标数量是超过一个的。我们同样可以看到,整合行为证据的方法可能会影响到指标评分的质量。
测评师之间的一致性
在听完所有关于练习表现的汇报后,测评师彼此就整体指标评分达成了很高的一致性。许多研究(Kehoeetal.,1985;McConnel&Parker,1972;Neidig&Martin,1979;Sackett&Hakel,1979;Schmitt,1977)都评估了测评师之间跨指标练习评分的一致性,平均指数为0.69到0.94。
只有Konz(1988)报告了较低的评分者一致性,从0.14到0.49。Thomson(1970)还发现,心理学家测评师和管理者测评师之间不存在评分上的显着差异,而且组内的一致性也非常高。
在一个略有不同的分析中,Smith(1988)研究了两种评鉴中心法(行为报告法和练习内评分法)的指标评分的组间一致性,方法是检验两组中指标评分的一致程度。不管最终的指标评分是通过测评师之间达成一致还是求平均的方式得出的,使用组内评分一致性的组其一致性程度都要更高。
所有这些研究都证明了测评师在跨练习指标评分上的稳定性。而且有证据表明,在一些使用练习内评分法的评鉴中心中,测评师彼此的一致性和评分者信度要高于采用其他方法的评鉴中心,如一些只需测评师在分配他们个人的指标评分之前报告行为的评鉴中心。
对整体测评得分的预测
许多个测评指标和整体评分之间的相关程度通常比较高。Hinrichs和Haanpera(1976)发现,8个不同国家里的评鉴中心,各个跨练习指标评分和总体指标评分间的相关系数为0.25到0.82;Hinrichs(1978)及Mitchel(1975)也报告了指标评分和整体评分之间的高相关;Huck和Bray(1976)则发现评鉴中心的测评对象无论是白种人还是黑种人,指标评分和总体评分之间的相关系数都很高。
研究表明通常有3到7个指标会对预测总体测评得分起作用(例如,Bray&Grant,1966;Hinrichs&Haanpera,1976;Kehoeetal.,1985;Russell,1985;Schmitt,1977)。Neidig,Martin和Yates(1979)发现,在19个测评指标中,5个测量了最终指标评分的特定方面,但只有两个指标具有交叉检验的一致性。相对的,Sackett和Hakel(1979)发现需要5到7个指标来涵盖整体指标评分的可预测的变化,而统计公式则适用于第二组的测评对象样本。
测评师们用来得出总体测评得分测评指标的多少(例如3到7个)并不能作为影响其训练量的变量。Dugan(1988)比较了上百个测评,其中测评师分别被训练了两个星期和三个星期,前一组测评师测量3-7个指标,后一组测评师测量3-6个指标。Dugan认为有多种因素可能导致训练效应的缺乏,例如:在加工复杂信息能力上的限制,指标测量的概念的重叠以及在统计方法的限制等。
这些研究还表明,即使测评师经常被告知使用所有和指标有关的信息,仍只有很少数的测评指标(大约3到7个)被用来支持测评师的整体评分。由于在整体指标评分中有较大比重的变异是能够通过统计方法来解释的,有人便建议没有必要再使用测评师整合的方法了(Herriotetal.,1985;Wingroveetal.,1985)。然而这个建议并不成熟,因为很有可能整合讨论得出的评分要比统计整合更准确。我们将在后面探讨这个问题。
对未来成功的预测
Moses和Boeham(1975)研究了对于男性和女性,跨练习指标评分是否能够预测参与者在参加评鉴中心后2-10年的管理级别变化。这个关系达到有意义的水平,但是并不高。各种指标的相关系数,对女性参与者为0.20到0.30之间,对于男性则达到0.25-0.38。相似的数据在Richie和Moses(1983)的研究中也被提及,他们的研究检验了指标评分对于男性参与者七年后变化的预测准确性。另外,类似的结果还出现在Wollowick和McNamara(1969)对指标评分三年后的预测准确性的研究中。Hinrichs(1978)使用了一个类似的效标,他发现对大部分指标来说,预测的准确性随着测评后时间的增加而提高(8年后平均的相关系数为0.42)。作为唯一的一个例外,Outcalt(1988)报告了一个平均只有0.15的相关,他的研究针对的是跨练习指标评分和工作级别的相关。这样,我们有比较充分的依据来认定:最终指标评分和测评对象若干年后管理上的成功达到了有意义的相关水平。
有三个研究考察了跨练习指标评分和薪水增长的相关程度。Bray和Grant(1966)检验了9组指标和薪水增长的相关系数,发现对于四组男性被试,相关系数从-0.41到+0.57不等,而另外39个相关系数指标中有20个是正向和显着的。在第二个研究中,指标评分和薪水增长的相关系数值有0.17(Mitchel,1975)。最后,Outcalt(1988)报告了8个指标评分和薪水级别的显着相关——在0.13到0.17之间。看起来似乎指标评分对薪水增长预测的准确性不如对管理级别的预测准确性,尽管至少在一个研究中这种预测是相当准确的。
工作绩效评价在五个研究中被用于对效标的测量,对此结论不一。
Thomson(1970)发现,同时由心理学家和管理学家组成的测评师队伍得出的跨练习指标评分,与上级对对象在同样的13个指标上的评价(测评的6-13个月以后)具有一定程度的相关。Outcalt(1988)则发现指标得分和一个专门衡量在职表现的新开发量表存在着相关,但使用常规的企业绩效评分表则得不到这种相关。另一个研究中,Huck和Bray(1976)发现四个测评因子和六个工作绩效指标的平均相关系数为0.28(白人参与者)和0.18(黑人被试)。另一方面,Hinrich和Haanpera(1976)发现所有的指标评分与绩效评估纪录的相关系数都很低。类似地,Konz(1988)发现,10个指标中只有1个和绩效考核存在相关。
这样,从上述五个研究得出的结果表明,跨练习指标评分能够有效预测未来的管理级别,而且随着时间增长这种准确度会更高。人们在部分研究中同样发现跨练习指标评分能够预测薪水增长和工作绩效,但是其他的一些研究却不支持这样的结论,另外,即使在能够预测的例子中,通常这种预测的准确性也较低。
其他关于最终指标评分的研究
最终指标评分的准确性能够通过检验大量相关证据来加以评估。通过因素分析研究得出的指标间的相关系数,最终指标评分与对该指标用其他方法测量所得分数的相关系数,都提供了衡量最终指标评分究竟测量了些什么的依据。
有三个研究检验了对个人参与者的跨练习指标评分。Archambeau(1979),Outcalt(1988)和Konz(1988)发现在最终指标评分之间均有着高相关,且并非总是反映完全独立的特质。这些研究也表明了指标所表现的测评师评分可能会受到对测评对象的整体印象的影响。
因素分析在若干个研究中还被用于检验,而结论通常是能得到2-4个因素。例如,Schmitt的研究(1977)里,对17个指标的分析得到了三个簇:管理技巧,人际技巧和活跃性。类似数量和因素类型的结论也出现在其他一些研究中(Archambeau,1979;Huck&Bray,1976;Bray&Grant,1966;Hinrich&Haanpera,1976)。
对比指标评分结构的研究(例如,指标是如何与其他指标之间相关的)——无论是关于不同的测评师(Hinrich&Haanpera,1976;Sackett&Hakel,1979),关于不同类型的测评对象(Bray&Grant,1966;Huck&Bray,1976),还是关于一个大型企业中同一个评鉴中心的不同时间点获取的评分(King&Boeham,1982)——都得到了非常类似的结论。这种相似性表明这些发现是有意义和稳定的。
因素分析同样可以解决这样一个问题:跨练习评分的实际结构和评鉴中心设计者所构想的这些指标的结构是否匹配?Russell(1985)通过对比已建立的四因素构架和测评师评分的实际因素结构来研究这个问题,结果表明,尽管测评师在接受培训时被告知要将指标评分看作由四个特定因素构成(个人特征、人际技巧、问题解决技巧和沟通技巧),但实际的因素结构并不符合这种模式。
相比之下,有两个研究表明,最初设计指标评分的因素簇在测评师的指标评分中也得到了一定程度的反映。Shore等(1990)发现有两个最初构想的因素簇,被命名为表现指标和风格指标,在9个指标的相关性中得到了体现。而Thorton,Clevenger,Tziner和Dahan(1991)分析了16个指标,这些指标被设计归并到4个组别中。只有一个指标过于复杂,难以归到任何一个因子,还有一个指标被“错放了”,除此以外,实际方法和最初的构想匹配得非常好。