这本书的宗旨是传达社会判断的不同解释的价值。已有的一些研究中包含了关于这两种对立观点成立条件的线索。若人们只是简单地对他人形成总体的印象,则图式更有可能影响观察、记忆和判断(Fiske&Taylor,1984);另一方面,如果人们被告知要观察细节,他们也能够并且的确做到知觉和记住大量的具体信息(Sherman,Judd&Park,1989)。如果观察者必须依据记忆,他们可能会形成内隐人格理论,并且可能会造成虚假的指标间相关(Cooper,1981)。但是如果一些建议——例如记笔记——在观察过程中被采纳,以虚假的指标间高相关的方式出现的晕轮效应(haloerror)将会被降低(Bernardin&Walter,1977)。Nathan和Lord(1983)证明,如果行为符合清晰的认知指标,观察者就能够将观察内容直接储存在长时记忆中,但是如果观察者对行为类别界定并不是很清晰,他们将无法回忆起真实的行为,而实际上可能会构造事件来支持他们的整体印象(Alba&Hasher,1983)。Nisbett和Ross(1980则)指出,当个人得到“仔细地参与问题解决”的指示时,他们会使用更系统、科学的策略来进行推断。Swann(1984)也提出,人类知觉在具体情境中进行预测时,比在整体性的或变化情境中的预测更为准确。准确性提高的原因是因为观察者只检测有限的行为,且人们对具体的情境和做出推测时所依据的环境将更为熟悉。
所有这些证据表明,我们有足够的理由相信,如果条件充分,测评师能够对管理资质做出正确的评价。正如我们已经讨论过的,以下条件都被引入了评鉴中心法:
测评师有足够的时间来做出细致观察和记笔记;
测评师在观察之后很快做出评分,且不依靠长时记忆进行评价;
明确地定义有效的管理行为指标;
测评师通常和测评结果无利益关系,因而可以客观地看待行为证据;
测评师对于他们熟悉的工作上的表现进行预测。
记录和整合观察的其他方法
多年来,人力资源专家设计了最初的“行为报告法”的许多变式。如果评鉴中心法已是如此成功,为什么还要这些变式?对于这个问题的答案有许多推测,但我们能给出一些更合理的解释。在人事评估的相近领域里有了许多进步,例如绩效评估和面试选拔,这些都在评鉴中心背景中进行过试用。例如,行为锚评分量尺(behaviorallyanchoredratingscales)(Smith&Kendall,1963)以及行为观察量尺(behavioralobservationsscales)(Bernardin和Beatty,1984)都提出了新的在情境练习中评价行为的方法。
另外,社会判断的理论进展(其中的一些在这一章我们已经有所讨论)也为评鉴中心提供了新的改进思路。同时,对测评的研究证据引起了对评鉴中心的准确性的疑问,而这通过新的流程可能会得到改进。
也许最有影响的改进动力来自简化评鉴中心法以提高效率的压力。一个评鉴中心占用了参与者的大量时间,而测评师花的时间甚至更多。正是鉴于实施评鉴中心所需的巨大花费(例如和一个简单的测验或背景访谈做对比),评鉴中心的设计者尝试削减时间和花费是完全合理的。评鉴中心里几乎所有的流程都有革新,包括记录行为、界定行为、评分有效性、报告准确性以及对资料的整合等。
练习内指标评分法
本章里提到过的传统的观察和界定过程被称为行为报告法。这种方法的一个变式是“练习内评分法”。这个术语用的时间很长,而且听上去有些别扭,但是我们仍将继续使用它,因为它准确地传达了许多评鉴中心所用的操作方法。更重要的是,无论用何种方法,似乎都会对测评师如何观察行为,如何与其他测评师交流以及对行为打分产生影响。在练习内评分法里,测评师被要求提供可以观察到的每一个指标的评分。在他们结束观察和界定行为后,他们一般使用1-5的5点量表来评价测评对象在每一个测评指标上的表现。这些评分可能会在测评师讨论过程中影响个人判断和小组观点,这个问题在下一章里我们会详细讨论。
现在的问题是练习内评分法的质量。有什么证据表明它们能对待测指标进行充分的测量?有两个原因支持我们探究练习内评分法。首先,许多评鉴中心使用练习内评分法,而且我们需要知道它的效果究竟如何。其次,一些研究对传统评鉴中心的方法提出了严肃的疑问,我们需要解答这些疑问。
评分者信度
有三个研究检验了测评师在练习内评分法中的评价一致性。必须承认,关于这个问题的资料很难得,因为许多情况下在这种方法中只有一名测评师观察一个测评对象。Borman(1982)报告显示估计的评分者信度在0.44-0.92之间,平均为0.76;Kehoe,Weinberg和Lawrence(1985)发现测评师能高度稳定地区分测评对象的技能,信度为0.66-0.94;之后,Konz(1988)还报告了一个练习内评分的0.75的评分者信度。尽管数字上有所出入,但这些结果都表明不同的测评师在一个练习内评分中有可接受的一致性。
练习内评分和其他方法的关系
Russell(1987)研究了一个公文筐和一个角色扮演的练习内评分法及其与人际行为的自我评价之间的关系,后者被认为对于一个管理者而言非常重要。他发现,自评和公文筐练习中的评价并无关联,但和角色扮演中的评分却存在相关。他总结道,测评师的评分并不反映内在的人格特质,而是反映了测评对象在一个练习中的行为与其对管理者的角色期望的一致性。
目前还没有能力来检验练习内评分法在预测工作情境中所测指标时的真实情况。不过有三个研究检验了练习内评分和跨练习评分的关系。
Hinrichs和Haanpera(1976)发现,对公文筐和工作报告的评分只和总体的维度评分稍有相关,但是小组讨论练习评分的相关要强得多。这表明测评师在做整体判断时更强调小组讨论而不是其他练习,也许这是因为他们认为这种练习和工作的相关性最高。
然而,Neidig,Martin和Yates(1979)发现所有的练习都对指标评分有所贡献,且公文筐练习贡献的有价值的信息最多,而背景访谈最少。
Kehoe等(1985)则发现测评对发现:14个指标中的每一个指标在不同练习中的相关系数平均为0.49。在Sackett和Dreher(1984)的研究中,评分在一些维度上发生了聚类(例如,言语沟通和分析能力),但是,在其他指标上没有表现出跨指标的相关性。
通过研究,我们可以获得最有意义的比较——同时得出聚类效度和区分效度。聚类效度在Archambear(1979)的研究中比较高,而同一个练习中,不同指标的平均相关系数要高得多,这表明缺乏区分效度。这种相同的模式,即同一练习中存在高相关,而跨练习的相关很低,在Russell(1987)的研究中也有被提到。相似的结果还出现在其他一些研究中(Baker,1986;Bycioetal.,1987;Konz,1988;Neidigetal.,1979;Outcalt,1988;Robertson,Gratten&Sharpley,1987;Sackett&Dreher,1982)。这样,关于练习内部指标评分的研究表明,在一些评鉴中心里发现了有意义的聚类效度,而区分效度的缺乏(如同一个练习中指标之间的高相关所表明的那样)也是这些评鉴中心的特点。
这些对于练习内部指标评分的研究,对测评师对管理才能指标做出有意义的评判的能力提出了严肃的质疑。这提示一些研究者,测评师对于有明显差别的特征并没有一个清晰和普遍的理解,相反,他们试图在每一个情境模拟中对测评对象的表现作整体的评判。这样的结果引起了一些批评,有人提出对于评鉴中心的传统解释(例如,测评师能够对管理资质进行评判)是建立在错误的根据上的。
这里可以举出几个反对观点:首先,这些研究中只有部分结果反驳了传统的观点,即使存在练习因素,评鉴中心也能提供对测评对象的整体评估,评价的信度和聚类效度在这些研究中都比较高。
其次,在这些评鉴中心中,使用的方法可能决定了它们的结果。在单个评鉴中心中,观察和评估行为的方法可能影响了评分的模式。对这一观点的支持来自于一些对人类知觉的研究,这些研究表明个体观察的目的(如形成一个印象或记住行为)影响了信息整合、储存和从记忆中提取的方式(Hastre&Carlston,1980;Jeffery&Mischel,1979;Wyer&Srull,1981)。在评鉴中心的行为报告法中,观察的目的是将行为归类到指标中。
而在练习内评分法中,其目的是评价某一个特定练习中几个指标上的表现。不同的目的可能会对测评师的判断产生不同的影响。
对这种解释的支持还来自于Silverman,Dalessio,Woods和Johnson(1986)等的研究。他们探讨了评鉴中心如何影响测评师组织和加工信息的两种方式,以及测评师是如何评分的。结果表明,指标内方法(即对行为报告法的一种修正,测评师在做完跨练习指标评分后,再进行练习内指标评分)比练习内方法有更高的聚类和区分效度。更多的统计分析表明,练习内方法存在更强的练习效应。因素分析显示练习内方法中有明显的练习效应,而在指标内方法中,测评师则更多地从跨练习行为的相似性上考虑测评对象的表现。这个研究表明评鉴中心法会对测评师如何组织信息产生影响:练习内指标评分可能造成测评师在评分中表现出更多的晕轮效应,并且在不同指标上少有差异。在我们能够得出评鉴中心法对指标评分影响的结论之前,我们还需要做更多的研究。但已有结果表明,行为报告法能提供比练习内评分法更准确地评分。
记录行为观察
传统的评鉴中心法要求测评师给出一个他们所观察到的行为的叙述性记录。如图6.2的例子,测评师记录下他们观察到的具体行为。在另一种方法中,测评师有一个可能出现行为的列表,测评师只需标出哪些行为实际发生了。表6.5举了一个小组讨论的行为列表中部分项目的例子:如果测评师看到测评对象启动讨论并在讨论过程起主导作用,那么测评师就可以简单地在“有效地带领讨论”这一行为前做出标记。
这种方法的意图在于降低测评师书写的时间,允许测评师更自由、细致地观察,且可以降低测评师必须做出的判断的数量。行为列表潜在的缺点是:测评师必须通览整个行为列表来找到相符的行为,这样可能会错失观察同时进行的其他行为的能力;测评师仍然需要对“行为列表中的行为是否与实际发生的行为相符”做出主观判断;更重要的是,从某种程度上说,列表中的条目必须是对具体行为的概括,而不是一个人实际做了些什么。最后,列表不可能长到足以包括所有可能列出的行为,测评师无论如何都需要做出额外记录。
有一些证据表明,行为列表能够有助于评鉴中心过程中的评分。
Reilly,Henry和Smither(1990)发现:一个行为列表(和传统的5点量尺比较)能产生更高的对相同指标跨练习评分的一致性,不过同一练习内的各个指标间的相关程度并没有任何降低。我们需要做更多的研究,以得出此方法是否比传统的记录行为的方式更有效。
界定行为
“在行为列表中指出每一项行为具体反映了哪一个指标”是一个相当有逻辑性的过程。假定的行为(或先前的评鉴中心里观察到的行为)可以被预先归类到合适的维度中。在存在预先归类的场合下,测评师在电脑程序里规定行为类别,并按照这一点自动计分。这种方法的优势是显而易见的——测评师的任务被大大简化了。一旦行为被核实,它将被自动归类并立刻生成指标得分。
然而,使用这种方法时要小心,因为这一过程关系到在观察阶段准确性的问题。测评师仍然得对对象行为和列表中现有的条目的相似性做出推断。列表的任何缺陷都会包含在分类过程中。
一个更强有力的反对预先设定行为列表的论断来自Murphy和Constans(1987,1988)。他们从信息加工的角度进行研究和分析,证明评分量尺上的行为锚可能只是测评对象观察、储存和使用信息的方式。结果表明,测评师对测评对象行为的记忆以这样一种方式被歪曲:评分可能会因行为锚的不同而过高或过低。
比较性研究:叙述性报告和其他评分方式