第22章测评信息汇总(1)

书签收藏评论目录封面

核心概念：对比统计和判断的数据整合方法；检验群体动力对整合讨论的影响；评估最终的指标评分以及整体的测评评分。

整体测评评分

在测评师对最终的整体指标评分达成一致后，他们可以得到每一个测评对象的指标得分。如果测评的目的是为了提供选拔和晋升建议，那么一个整体的测评得分是合适的——这种情况下，企业中的决策者通常希望获得一个对测评对象能否胜任未来工作的预测；在被用来诊断培训需求或用于培训发展目的的评鉴中心里，单单一个整体评分显然是不合适的——在这种项目里，项目成果应当是指标评分或对有必要提高的部分进行反馈。

我们接下来的讨论只和需要整体评分的项目有关。

为形成一个整体评分，每一个测评师都需要检查最终的指标得分，并针对参与者是否能够在目标工作中取得成功给出判断。这个整体测评得分是对所有相关信息的整合。测评师必须判断如何整合这些指标评分。对于每一个指标的权重并没有一种通用的公式，但是工作分析的信息能够指出一些测评指标的相对重要性。更重要的是，在测评师培训过程中，测评师彻底地讨论了指标的重要性，并开发了一些通用的框架用以整合指标得分。每一个测评师都应当考虑岗位要求和测评对象相关信息的准确性，并且根据那些知识和评鉴中心过程中所获得的培训来整合指标。

整体测评指标评分可以有几种形式：对于一个选拔项目，评分可能是“成功的几率”，对于一个晋升项目，评分可能是“在中层管理岗位上的成功几率”。在25年前进行的管理过程研究中（Bray&Grant，1966），测评师给出了两个预测：“晋升的可能性”以及“此人是否应该被晋升”。第一个是测评对象是否具备企业所需要的品质，第二个则是对测评对象是否拥有被企业认同和鼓励的品质。

在测评师独自做出整体测评评分后，如果测评师间达成了一致，那么该得分就是最终结果。如果存在不一致，那么测评师将会讨论它们的分歧点并且达成统一，这类似于他们获得整体指标评分的过程。在大部分案例中，不一致的情况很少见，而讨论的这一步通常也进行得非常快速。有人建议取消这个过程（Feltham，1988b；Sackett&Wilson，1982），但是这并不会节省多少时间。而且，测评师希望看到整个过程的终结，取消该步骤会使他们失去看到最终步骤的机会。绝大部分的评鉴中心都使用这个过程来获得最终的得分，如Gaugler等（1991）发现，他们调查的200个企业中的84%使用了这一程序。另一方面，人们也提出了另外一些方案，而我们要问是，是否其他的一些整合信息的方法可以增加预测的准确性。在Gaugler的调查中，14%的企业使用了一些统计方法来整合信息。

结果整合的其他方法

有两种整合测评得分数据的方法：判断法和统计法。判断法涉及一些主观的过程：测评师依据他们对每一条信息的重要性的评价来整合信息。

在评鉴中心的整合讨论里达成一致的过程就是这种评价法的一个例子。统计法则涉及使用一个数学公式来“整合”信息。在这样一个公式里，需要确定每个测评指标得分的权重。如：

整体测评得分=（4×决策能力）+（2×领导力）+敏感性+公司导向

在这个例子里，决策能力和领导力的重要性分别是敏感性以及公司导向的四倍和两倍。这些“权重”由统计方法确定，例如多元回归等。研究者需要来自大样本的数据（样本量至少要100-150人）来进行这样的统计研究。通过类似研究得出的数据将会包括“预测指标”的分数——在这个例子中是指几个指标的得分——以及关于某些标准的得分（例如管理层级的提升或工作中成功的表现等）。标准的得分和指标得分的相关系数将会揭示权重。一旦得出这些权重，我们就能用一个公式来整合指标评分，并用来预测成功。

有很多来自心理学其他领域的理论和经验性的证据支持这种统计性的信息整合方法。最早在临床心理学（Meehl，1954；Sawyer，1966）和其他领域（Dawes，1979）中对统计和判断法的研究表明：统计方法能提供更为稳定和准确的预测，判断法则由于判断者使用并非总是稳定的主观权重来整合多条信息而容易出错。而且，当测评师对于哪一个变量更重要并没有清晰的理解时，准确性会进一步下降。在评鉴中心的文献中也有一些证据支持对指标评分进行统计整合。

至少有两个地方是典型的使用团体讨论来整合评鉴中心数据的：当测评师形成最后的指标评分以及当他们达成一个整体评分时。测评师在这两个过程中都会遇到一些典型的问题。下一部分我们将会探讨团体决策的过程。从评鉴中心研究得出的经验性证据是否支持在这些过程中进行统计整合？下面就是证据。

通过统计方法得出最终的指标评分

到现在为止，还没有一个关于评鉴中心的研究是探讨什么是得出最终指标评分的最佳程序的。就我所知，也还没有研究对比出了传统的、判断性的达成一致的方法和统计方法之间的优劣。最简单的途径是将初步得出的指标评分进行平均。可以想见，一个特定的测评师的评分的权重可以加大，虽然在评鉴中心施测前确定哪一个测评师的判断更准确是一件困难的事情。

整合最终的整体指标得分

支持通过统计方法得出整体指标评分的观点是基于测评师个人一次只能考虑到有限的几个因素，而不能够同时思考和整合大量的指标以得到一个整体得分的假设。通过统计方法，测评师的职责在他们对最终的指标评分达成一致后就已经结束了。用判断法整合测评数据的支持者则认为，很难通过经验性的证据得出信息统计整合所需要的权重，同时测评师也更倾向于用判断法。此外，通过整合讨论还可以得到独特的关于测评对象优劣的观点（Thornton&Byham，1982）。

目前已经有大量研究对比了此阶段的两种数据整合方式。然而不幸的是，研究得出的都是两者相等的结论。Feltham（1988b），Moses（1972）以及Huck（1974）没有发现判断法和统计法在预测准确性上有显着差异，Mitchel（1975）也发现实际上两种数据整合技术在三个样本（一年、三年和五年间隔）上都没有差别。Mitchel的研究的优势在于他使用了交叉检验，即他使用了一个在独立样本中检验统计结果稳定性的方法。

也有三个研究支持通过统计方法来整合数据（尽管有必要指出这些研究并没有涉及对新的被试样本的交叉检验）。Wollowick和McNamara（1969）发现，通过判断法得出的总体指标得分与对“管理成功”的测量的相关系数，要低于统计法所得出的评分与同一标准的相关系数。而且，判断法的准确性比不上通过求和的方式得出指标总体得分或通过客观测验得分。统计方法更高程度的相关在Borman（1982）的研究中可以见到，这个研究对比了两种数据整合技术预测三个指标的能力。此后，Tziner和Dolan（1982）也发现对测评得分的统计整合比判断性整合在预测准确性上更胜一筹。同样的，我们需要小心这些结果，因为这些研究并非由独立样本的交叉检验得出。Mitchel（1975）的研究非常有启迪作用：最初，统计法的确能够获得对工作成就更准确的预测，但当统计公式被用于不同时间段的不同样本上时，统计法的准确性会大幅下降。

Silzer和Louisville（1990）质疑了进行关于指标评分讨论的必要性。他们比较了讨论前的得分和讨论后的指标评分的预测效度，在两年后发现了关于管理业绩的预测效度的混合证据：对于其中的两个指标，讨论前评分的预测准确性更高，而另外的两个指标，讨论后评分的预测准确性更高。

在这个问题上还需要更多的研究。

另一个通过统计整合指标的方法是将指标全部赋予相等的权重。这意味着分数是通过简单相加得到的一个整体得分。例如，如果有5个指标，而一个测评对象在三个指标上被打了3分，而在另外两个指标上得到4分，那他或她的整体测评得分将会是17分。支持相等权重的论断认为，它是一个稳定的过程，并且它会防止测评师不恰当地强调局部信息。例如，在一个中型城市里选拔一位警长，最终当选者曾被揭发存在经济问题。这个信息和一些指标（例如判断力和社会责任感）的评分有关，但是它被测评师们夸大了，对于判断力和责任感的评分在最终决策中占了过大的比重。

组织者选择了另一个候选人，但很快此人就辞职了，最终前一个候选人得到了这个位置并且干得很好——他解决了经济问题并且成为一名优秀的管理者。平均权重可能会防止局部信息掩盖了其他的部分。当然，新的信息也可能会在特定的情境下和测评结果有关。也许在评价过程中需要有一个特殊的考虑过程，此过程是难以和统计过程相兼容的。

平均权重的过程被认为是“单位加权”，因为所有的指标被赋予1的权重。Feltham（1988b）在一个研究中指出，在预测未来成功方面，单位权重能产生比整体讨论评分准确度更高的整体评分，但是在他的第二个样本中并没有对预测的证明。

鉴于目前并没有关于一个信息整合技术优越性的可靠结论，在有更充分的依据之前，我建议保留测评师整合评鉴中心数据的过程，并以在以往研究中体现出了长期准确性的方式进行。而当评鉴中心的目的是达到一个最终的“选或不选”的决策时，这种形式的数据整合技术是合适的，但如果评鉴中心的目的是给出发展反馈或诊断培训需求时，这种形式的数据整合技术并不合适。

整合初步的整体评分

测评师给出他们的初步整体得分的阶段是如何进行的呢？有些研究者质疑了在这个阶段进行整合讨论的必要性，如Sackett和Wilson(1982)；Wingrove，Jones和Herriot(1985）。具体来说，他们认为如果整合评分能够通过个人评分进行预测，那么统计方法就完全可以代替最后的整合过程评分。这里有两种同样合理的观点。根据Sackett和Wilson（1982），使用一个统计方法可以有若干种好处，包括节省时间和财力并且消除可能对最终评分产生的消极的社会影响（本章后面部分会讨论这些影响）；另一方面，Thornton和Byham（1982）则认为整合讨论是一个评鉴中心过程中非常重要的一环，因为它保证了对测评师偏见和倾向的检验。一个整合讨论能够保证人们用行为证据来支持他们的评分，它同样能够保证人们有机会在听到对一个候选人表现的不同观点之后修改他们的评分。整合讨论是导致了更好还是更坏的决策实际上取决于讨论的本质：这个问题将在本章后面部分进行讨论。

一些研究比较了初步和最终的整体测评得分，并认为整合过程对这一阶段的测评贡献甚微。Sackett和Wilson（1982）发现，对于一个719人的参与者队伍，测评师的初步整体测评评分和最终的测评得分只存在1%的不一致。而且，在初步指标得分的基础上，可以通过一个很简单的法则准确地预测最终测评得分。

为证实是否整合讨论可能导致更差的决策，Herriot，Chalmers和Wingrove（1985）检验了整合讨论以什么样的团体动力为特征。他们研究了2640起案例，其中四分之三的测评师在他们的初步评分上达成一致。然后他们检验了这时第四个测评师会怎么处理他的评分。在三分之二的情况下，意见与众不同的测评师并不会转向大多数人的立场，但是在三分之一的例子中，他们改变了立场。在许多从初步评分到最终评分过渡的过程中，Herriot等发现了一些占主导性的评分模式。例如，他们发现测评师更愿意同意大多数人的意见转向一个更高的初步评分，而不太愿意转向一个更低的分数。而且，测评师更倾向于同意大多数人的低分立场，而不是高分立场。这些模式相混合，表明在团体决策过程中有一种消极的偏向性，也就是说团体讨论试图避免给出高分。这和其他团体动力将会在本章得到更深入的探讨。

我们能够从这些研究中得到的一个结论是：整合过程是不必要的，因为测评师的最终评分并不和最初评分有所不同，而且实际上可以通过他们的指标得分加以预测。我们也许可以得出更多的结论，即这些研究更能够表明整合讨论可能有害的，因为团体动力可能对于讨论有消极影响，而且这种团队讨论并没有对预测准确性有所贡献。

在这样的结论得到证实和传统的评鉴中心在实际操作中得到改革之前，我们需要更多研究支持。必须有研究来证明由数据整合方法（无整合讨论过程）得出的整体测评评分和最初的整体测评得分有相同的预测准确性，这种准确性必须达到以传统方法的水平。如果测评师并不期望整合讨论过程，他们的观察、分类和评分就必须以不同方式执行。假想新的数据整合方法能够得到高度准确的总体测评得分是不恰当的。

总结

作为上述发现的结果，有些人主张在评鉴中心里取消数据整合过程（Herriotetal.，1985；Wingroveetal.，1985）。这种观点有一些问题。

用来整合测评得分的统计程序可能会暴露对结果应用的一些限制：1）它们给出了一系列数据的理想化整合方案，并且可能会过分强调变量之间的关系；2）这些公式是针对一个被试样本得出的，这个样本通常较小，可能不能代表整个范围内的被试对象；3）它们研究了指标分数的线性拟和。

将统计方法视为一种备选方案，我们必须认识到：1）对于一个样本的公式必须适用于其他独立样本；2）从小样本得出的统计公式并不稳定；3）对于指标的特殊组合可能同样是重要的，这些组合在针对指标上的高分段和低分段是有意义的。Dugan（1988）认为这些统计程序可能难以把握测评师利用信息的丰富多样的方式。她指出，先前的研究和测评师的信息讨论揭示了测评观察的特定组合，而这是无法通过统计公式展现出来的。

第22章测评信息汇总(1)

三分策略七分执行：中层管理者高效执行力的10项修炼

将任务落实到底

促销管理

新编财务会计从入门到精通

半部论语治企业

桂海虞衡志

老子为人处世智慧全集

TF洛之恋

南有云阁

焚天战神

为了结束，我请求开始

郁洲遗稿

鹿晗之最美的年华遇见你

扮演者空间

寒川记

第22章 测评信息汇总(1)

第22章测评信息汇总(1)