行为锚评分量表(behaviorallyanchoredratingscales,Smith&Kendall,1963)理论的发展为测评师准确地区分不同行为提供了证据。这种技术假定:工作行为能够被稳定地区分并归于不同意义的类别中。通过这种技术,监督者观察工作行为,将行为分类,并且逐步积累行为证据来支持对行为表现的各个有意义的方面进行的评分。
在绩效评估的研究中,Nathan和Lord(1983)提出了更多的证据:观察者能够将行为归类到不同的类别中并依据实际的行为进行打分。实验中发现,“表现好的测评对象”的差劲行为和“表现差的测评对象”的良好行为,对这两种行为的评分结果都会受到影响。对于整体表现的总体印象的确会影响对各个维度的评分,但测评师应该能够避免这种影响。正如我们在第三章提到的,工作绩效评估能够被定义得极其广泛或狭窄。但是怎样程度的概括是我们所应当做到的呢?Hampson等人(1986)研究了行为维度适宜的概括程度,且提出了一个三层次模型。他们发现:对于绝大多数的目的,模型的最上层(涉及宽泛的特征如夸大其辞和责任心)显得概括性太高,而最下层(涉及的特征如乐感的缺乏)又太具体,模型中间的那一层(涉及的概念如能量水平、社会化程度、可信度和果断性等)似乎最为有用。评鉴中心的维度主要正处于第二层次的概括水平。
评鉴中心研究
测评师的分类过程在以往的研究中是一个被忽视的领域。Gaulger和我(1989)的研究是唯一的一个这方面的研究。我们计算了测评师正确归类的良好观察和专家归类的良好观察的比例(28%),还有所有被正确归类的对象所做出的良好观察和该类观察的总数之间的比例(40%)。测评师在对三个维度进行归类和评分时的表现要比他们同时处理六个或九个维度时好得多。该实验中,测评师对行为进行归类的准确性不高,这表明他们无法明确区分不同的维度,但他们在面对少量几个含义明确的维度时则表现得相对好一些。受过良好训练且有经验的测评师可能更擅长这样的任务。
结论
在观察和分类过程的结尾,测评师将详细的行为报告归类到合适的维度。在观察完一位测评对象的表现之后,测评师很快得出关于该测评对象的报告。规定测评师在短时间里完成这些报告显得颇为困难,但只有这么做才能使记录和行为观察在测评师的脑海中保持鲜活。在社会知觉研究领域中的研究表明:具体的行为信息消退的很快,除非事件在发生后立刻就被记录下来(Fiske&Taylor,1984;Wyler&Srull,1986)。一旦这些信息被记录下来就万事俱备了,测评师可以一起开会并讨论他们各自的观察。
报告汇总
评鉴中心操作
当测评师一起开会以整合他们的观察时,他们一次讨论一名测评对象的表现。每一个测评师都将报告他们观察到的行为。测评师A可能报告小组讨论中的行为,测评师B可能报告一对一的情境模拟,测评师C可能报告公文筐练习,接着测评师A报告第四个练习,以此类推。正如图6.1和6.3所示,每一个描述报告中测评师都描述了他们观察到的和测评指标相关的行为。在他们的报告中,测评师考虑了与每一个指标相关的几个点,例如测评对象有没有在讨论绩效评估的模拟会议中提出一个跟进的具体日期来回顾绩效的提高?当一位测评师朗读他的行为报告时,其他测评师边听边在一个指标总评表格(如图6.4所示)中做笔记——通常每一个指标会占到一页的篇幅。这种形式提供了一个跨练习的整合过程,测评师可以在此汇总所有与指标相关的行为证据。
图式驱动理论
当报告记录情况时,测评师往往过于依赖他们在观察过程中所做的笔记。然而,由于无法记下每一个细节,测评师仍必须经常依靠他们的记忆。
究竟他们能在多大程度上回忆起实际发生的事件?根据图式理论,记忆首先由我们所见到事件的抽象表征或解释构成(Cooper,1981;Fiske&Taylor,1984)。这种观点认为,相比短时记忆可能由准确的细节构成,长时记忆可能很大程度上是由广泛的类别构成的,在细节上则有所欠缺(Wyer&Srull,1985)。而且,任何转入长时记忆的细节都只能在其中保存有限的一段时间,记忆将不断消退,同时这种消退是选择性的。根据这种理论,我们倾向于只保存信息中和我们的总体印象一致的部分。
其他一些理论家们甚至提出了一种更为极端的过程。这一过程被称为“重建”(Cooper,1981)。在这个过程中,我们重新构造了一些实际上从未发生过的事件。换句话说,我们相信一些和我们最初印象相符的事情,但实际上它们从未发生过。如果在一个评鉴中心里一个测评师错误地想起他所喜爱的一位测评对象为小组讨论作了最后总结,而事实并非如此,那么我们将会遇到麻烦。
行为驱动理论
其他的一些研究提出了一个截然不同的理论。关于人际知觉的理论和研究支持这一观点:我们能够记住我们所观察的大量细节信息。其他一些理论(Hintzman,1986,1988;Smith&Medin,1981)也提出,我们的记忆中有所有我们接触过的测评对象的痕迹,这些记忆痕迹包括我们观察到的细节片断。而且,我们可以提取关于这些事情的许多细节(Fiske&Taylor,1984)。Johnson和Raye(1981)甚至坚持认为我们能够区分实际发生的外部事件(例如,遇到了抱怨他妻子的某人,咖啡馆里的食物以及美国总统等等)和自己创造的推断(例如,新来的那个员工是一个态度消极的人)。他们认为,外部产生的记忆(某人对妻子的那些抱怨)实际上要比内在产生的记忆(消极的员工)更为具体和稳固。Locksley,Stanger和Hepburn(1984)则证明,当有适当的帮助和检验时,记忆并不会被歪曲以适应图式中先前的印象。哪怕我们接受记忆是由具体细致的信息组成的观点,我们也必须承认人们在搜寻和回忆信息时会有困难。针对在不同练习中测评对象所展现的典型行为来对测评师进行深入的培训,能使测评观察的提取变得容易。另外,当测评师准备联系报告及在汇总讨论中交流时,我们也能够提供给测评师“需要考虑的要点”的列表。
对总体表现的初步评分
评鉴中心练习
读完所有的练习报告后,每一个测评师都需花几分钟回顾、汇总行为证据并且对每一个指标初步定一个总分。这些初步的评分是测评师独立做出的,并且写在一个维度总结表格上。这些评分接下来将被登在大型的表格或黑板上。表6.2举了一个三位测评师组成的小组对某测评对象打分的例子。
图式驱动理论
根据这种理论,人们发展并使用了一些简单的原则来对他人作出判断。这种理论主张:我们实际上基于非常少的信息而不是我们所能获取的足够信息来做出判断。这种“简化过程”论是解释测评过程中整合和判断的两种理论之一。很多人坚持认为,我们的人际判断是基于记忆的,而记忆则是容易出错和选择性的。这种观点主张:因为选择性记忆会逐渐消退,整合和判断将会基于一些和我们对测评对象的整体印象一致的记忆。
例如,Cooper(1981)强调在评分中将会有明显的“晕轮效应”(haloerror),即对测评对象不同特点的评分之间存在着高相关,这种相关正是一小部分信息对多个特点的评估产生了广泛的影响而造成的。在下一章我们将会看到,这种晕轮效应的观点可能是不正确的。Murphy,Jako和Anhalt,1991年对晕轮效应的分析表明,许多观察到的不同维度评分间的相关可能是因为这些特征实际上的相似而造成的。Fiske和Taylor(1984)总结了许多研究,说明是内部印象而非记忆中的细节信息更容易被人们回忆,而这将会主宰我们的评价。Feldman(1981)进一步提出,我们将会“重建”或创造能够填补记忆空白的事件,从而证明和支持我们的判断。
对人类的推断过程最彻底的批评来自Nisbett和Ross(1980)。他们声称人类使用的几个经验性的程序(或称“拇指原则”)都可能导致决策过程中的错误。这些原则包括:
“代表性”——客体在被观察到后,被分配到不同类别中,接着我们基于假定的类别关系而做出判断。
问题所在:关于类别的信息并非永远准确,而且被过度使用。
“可获得性”——在记忆中较容易被获得的信息被用来判断频率、可能性和因果关系。
问题所在:可获得的信息未必是有效的。
“鲜明性和鲜活性”——我们更重视直观和显着的信息。
问题所在:鲜活性通常和信息对我们决策的价值大小无关。
以上的这些和其他一些我们判断过程中的缺陷,使我们对未来事件做出预测变得格外困难。然而,做出准确判断并不是毫无可能的。Nisbett和Ross(1981)指出人类的判断足以完成一些壮举,例如让人类登上月球。
行为驱动理论
根据行为驱动理论,人们能使用他们所获得的客观和细致的信息,并且将这些信息以一种有逻辑的方式组合在一起。Hintzman(1986,1988)认为,判断者将会回忆和使用实际的行为来形成判断。Anderson(1974,1978)则提出人们使用一种简单的心理代数来组合信息,通过相加或平均来形成一个整体的评价。与此类似,我们看到Nathan和Lord(1983)提出特定维度的评分是基于测评对象已经证实的表现,而不是基于观察者形成的整体印象。Alba和Hasher(1983)则回顾了许多关于人类知觉的文献,并总结道,图式驱动理论中提到的判断歪曲实际上并不常见。最后,Murphy等(1991)提出,似乎很有说服力的“晕轮效应”实际上并不那么有力,而更像是不同维度之间关系的一种反映。
面对图式驱动理论所持有的令人沮丧的社会知觉和人类判断的观点,我们可能会怀疑是否有希望准确地测评员工的表现。对此,答案是肯定的。因为评鉴中心和社会知觉学者们研究的社会判断是截然不同的过程。
社会知觉的研究者们绝大部分研究的是人类日常的交际经验,他们在实验室环境下的临时被试组中研究这些现象,而在实验室中,人们所获取的信息是受限制的。正如Bernardin和Beatty(1984)在他们关于绩效评估的回顾研究中发现的那样,绩效评估不同于对人本身的评估,他们找到了足以使他们感到乐观的理由:许多阻碍正确判断的,使人们日常判断失误的因素能够在受到控制的绩效评估场合中被排除。我们还能够采用以下方法改进绩效评估的方式,例如让管理人员接受系统的如何进行绩效评估的训练并使用明确的绩效评判标准;正确使用行为锚评分量表(behaviorallyanchoredratingscales);使评价人保持做记录的习惯;采用恰当的方法激励管理者做出准确的评分等。这种观点是否过分乐观还有争论,但是在评鉴中心评估的场合,许多造成评价歪曲的日常因素(Murphy和Cleverland,1990)同样并不存在,我们甚至还有更多理由感到乐观。那么,是否有证据支持这种乐观呢?
评鉴中心研究
听完其他测评师的初步报告后,在进一步讨论之前,测评师是否会同意对维度的整体评分?回答这个问题的一个办法是比较两个或更多的测评师给出的评分。这种比较被称为信度评估,其值从0-1.00。就这种研究而言,信度指标在0.80-1.00之间被认为是高的,0.60-0.80之间被认为是中等,0.6或更低则属于低信度。表6.3表明,在以前的一些评价中心研究中,测评师之间对于初步的维度整体评分的赞同程度从相对较低(0.50),中等(0.67),到很高(0.94)都有。Thomson(1970)发现在心理学测评师和管理者测评师之间有高度的一致性。正如我们将在第七章里看到的,一致性甚至将在整合讨论之后变得更高,当然,它也可能在刚开始的时候就很高。
整合程序
到此为止我们讨论了测评师的观察和判断的过程。接下来,对评鉴中心方法最后三个步骤的简短描述将补充完成整个过程。下一章将会对测评师小组讨论的过程有一个更完整的分析。在初步的整体维度评分之后(见图6.2),测评师讨论在维度评分中的任何分歧,并且试图在整体评分上达成一致。这一过程不仅仅是将所有的初步评分求平均,还包含了所有测评师达成一致的过程。当然,当一开始测评师就是一致的时候,正如我们提到的领导力的例子,最终得分也就是最初的那个分数。
另一方面,如果整个测评程序的目的是为了诊断测评对象的培训需求或对管理技巧的发展,那么整体评分并无必要,因为测评最重要的成果是和这些维度本身相关的信息。事实上,总结一个总体得分可能是有害的,也就是说,总体得分可能会阻碍对测评对象具体的优劣势的发现。同时也可能会引发对象的焦虑,担心测评结果被用于组织决策。
现在假设总体评分是有益的,每一个测评师独立地回顾最终的维度评分,并且判断如何组合这些信息。这种初步的总体评分被记录在黑板上,测评师不断讨论直至大家对于最终的总分达成一致。
对图式驱动理论和行为驱动理论的比较
我们已经讨论了两种清晰的,比较成熟的关于人际知觉和判断如何展开的观点——图式驱动理论和行为驱动理论。我们已经回顾了两者各自的理论和研究证据。哪一个更准确?为此问题寻找一个确定的答案似乎是不合适的。这两种观点中的任意一个都没能完全解释所有人际判断的问题。
一个更好的途径是尝试理解什么时候发生哪一个过程,什么样的条件促成图式驱动或行为驱动的评价发生,以及从两种理论中能够得到怎样的启示,来使测评变得更完善。对于这一主题的文献回顾能够提供一些线索,告诉我们什么时候和在什么场合这两种理论分别起作用,但很少有理论家试图整合这两种理论。看起来,如果一个研究者是某一阵营中的,那么他/她将很难看到另一个阵营的价值。