登陆注册
4855900000021

第21章 观察和界定行为(4)

Borman(1978)认为评分形式或格式是造成评分不能变得更稳定或更准确的四个潜在原因之一(其他三个原因是缺乏观察行为的机会,缺乏对评分错误的理解和组织上的限制)。理想情况下,评分表应该能和测评师的心理过程相容,而不需要他们做他们无法做出的判断。几位研究者(Baker,1986;Campbell,1986;Louiselle,1986)提出,传统的描述性报告之外的测评形式能够通过简化对测评师信息加工方面的要求来提高评鉴中心的准确性。Louiselle(1986)还比较了传统的描述性行为报告表和预先制定的行为列表对每一个练习后指标评分间相关程度的影响。对于通过叙述性报告得到的评分结果,因素分析的结果表明,对测评师评分的最佳解释同时包含了指标和练习信息。然而,对于行为列表评分来说,还没有合适的解答这些信息的方法。

这样,叙述性报告的格式被证明在指标评分上具有聚类效度和区分效度。然而,行为列表却没有相应的证据。这种情况下,行为列表缺乏有效性,可能是由于无法在坚实的理论和经验基础上充分地构建行为造成的。

Baker(1986)和Campbell(1986)分别比较了使用行为列表和使用行为锚评分量尺(BARS)得出的指标评分(行为锚计分量尺是一种包含数量等级和特定行为,代表好、中、差的行为表现的计分形式)。Baker发现,对于无领导小组讨论,通过行为列表得出的练习内指标评分有更高的区分效度,而对于有角色的小组讨论则通过BARS得出的练习内指标评分有更高的区分效度。而且,对两种类型的小组讨论,行为列表的方法在练习内具有更高的指标间相关性。Campbell则发现BARS具有很高的区分效度,但两种形式都没有表现出高的聚敛效度。

总的来看,这三个研究都指出了各种评分形式对评分者判断产生的影响。然而,这些缺乏一致性的研究数据无法决定是否存在一种“优异的”

评分形式。对绩效评估的研究(Bernardin&Beatty,1984;Murphy&Cleveland,1991)也得出了相同的结论,即没有一种形式比其他更为优越。

练习评分

在研究者看到练习内指标评分存在的问题后,有人提出应该放弃对单个指标评分,代之以对某个练习中的表现进行总体评分——在评鉴中心里加入一个测评师对每个练习中的总体表现进行打分的全新的步骤。我们应当分析这种总体评分的质量并讨论他们的价值,之后这种变化才有可能得到广泛承认。

测评师的一致性

表6.4列出了一个有代表性的研究,研究分析了几个评分者之间就不同练习中的表现达成的一致性。研究显示:无领导小组讨论和商业游戏的一致性高低不一,角色扮演和公文筐练习的一致性很高,而演讲的一致性则较低。在Borman(1982)的报告中所有六种练习的平均一致性为0.76。

这些研究表明不同的测评师在评价练习整体表现时表现得比较一致。此外,测评师似乎对某些练习中达成一致的程度要胜过其他练习,但是对这种现象还没有合理的解释。

在两种不同类型的测评师之间的一致性同样得到了测量。Greenwood和McNamara(1967)发现,专业和非专业的观察者的组间一致性为0.12到0.81。尽管一些信度很低,但两种类型的测评师在评分者信度上并没有显着差异。Gatewood等则研究了一组有经验的测评师和三组经验相对欠缺的测评师之间的一致性——组间的一致性为0.66到0.84。两个研究都表明“专家”和“非专家”都赞同彼此对于练习整体表现的评价,尽管在一些对比中这种一致性比较低。

预测准确性

Bray和Grant(1966)发现,测评师对于无领导小组讨论、商业游戏和公文筐练习的整体表现的评价不仅与对测评对象的许多更宽泛的评价存在着相关(相关系数从0.3到0.5),还和对测评对象管理潜质的评价存在相关。Konz(1988)发现所有九种练习的评分和测评总体得分存在相关。与此相同,许多其他的研究(Borman,1982;Tziner和Dolan,1982)也发现单项练习中的得分和最终的测评得分存在相关。Borman(1982)以及Tziner和Dolan(1982)则发现练习间评分和培训中的表现存在高相关,但Borman,Eaton,Bryan和Rosse(1987)却又没有发现这样的结论。

支持练习评分和工作行为的相关性的证据相对较少。Wollowick和McNamara(1969)发现两组练习以及一个公文筐练习同管理级别的变化有显着相关,但Outcalt(1988)发现有五组练习只是和工作级别或薪水级别的改变有轻微的相关。另外三个练习中则并未发现工作业绩和练习评分之间有练习评分相关,或者仅仅只有低相关(Hinrichs&Haanpera,1976b;Konz,1988;Outcalt,1988)。

这样,练习评分似乎可以准确地预测最终的测评得分,并且对于培训中的表现也是一个比较准确的衡量指标。然而,练习评分和最终的测评得分只是最低程度的相关,并且他们和后续的晋升以及业绩的相关关系太低,目前尚难以保证其应用的价值。

其他关于准确性的证据

有五个研究检验了几种练习的评分之间的关系,来考察不同的练习能在多大程度上测量相同或不同的概念:Konz(1988)研究了九种练习的评分,发现平均相关系数为0.21;Borman(1982)发现,四种练习中的评分中涉及一对一的角色扮演的彼此相关性最高(平均为0.48),而结构化面试和单个公文筐练习的评分和其他练习的相关性最低(和其他四个练习平均相关系数为0.26);另一个研究(Tziner&Dolan,1982)发现,五种不同的练习的相关系数从0.38到0.63,其中无领导小组讨论和角色扮演练习最为相似;Bray和Grant(1966)发现商业游戏的评分(以及评级)和无领导小组讨论评分的相关系数中等;Moses(1973)则经过研究得出结论,评鉴中心过程中的某个竞争性团队练习与合作性团队练习存在中等的相关。

总而言之,似乎对不同练习中表现的评分彼此间存在中等程度的相关,并且相似练习之间的评分相关性(如小组练习)要比不相似练习(如小组练习和个人练习)之间的评分相关程度高得多。练习评分的相似性可能由实际表现出来的相似性造成,也可能由某种人为倾向性造成。这些倾向性可能和一些批判观点所认为的“导致练习内指标评分高相关的倾向性”类似。

练习评分的准确性也可以通过检验他们和其他变量的相关性来衡量。

Borman(1982)发现,测评师的评价和第一印象、外表以及喜好程度的相关很低。这些发现能够得到有力的解释,因为整体的练习评分并不测量无关变量。Tziner和Dolan(1982)则发现在五种测评练习和三种智力测验之间存在0.30的相关,这些结果表明高智力的测评对象比智力相对较低的测评对象总体上获得的测评分数更高。

这样,尽管练习评分可能反映了表面特征(例如外表)以外的东西,智力可能仍是一个影响练习评分的潜在的因素。这些研究发现支持了Klimoski和Brickner的假设(1987),即评鉴中心测量了管理智力(managerialIntelligence)。然而,我们需要更多的此类研究,以便我们能够得到关于练习评分的内在因素的更为可靠的结论。

对其他方法的评论

很显然我并不支持对传统评鉴中心过程的修正。已经尝试的这些变革仍然没有得到充分的研究来赢得赞同。更多的研究可能会证明它们的效用,而它们也可能确会大受欢迎,但迄今为止,我们仍应当非常小心地对待传统方法的变式,并且我们应当以质疑的眼光看待它们。当然,这并非意味着我们无法为测评师提供许多的辅助手段来帮助他们培训、判断和最终做出评估。事实上,这些辅助手段在本书中多次被提到。

本章小结

这一章给出了大量关于测评师如何观察、界定和评估行为的实践、研究和理论。对于评鉴中心的各个步骤有各种支持证据:一些理论和研究证明了这些过程的准确性,其他一些理论和研究则不然。这些非支持性的证据表明,有必要改进评鉴中心方法,并且人们提出了许多变式。

从目前的一些实际操作中,我们可以看出一个趋势,即在评鉴中心过程中后期的步骤在一致性和准确性上更高,这些步骤中大量的数据得以积累。换言之,单个测评师在评价单个练习中单个维度上少量行为时的准确性并非很高。相对的,当对许多练习中的多个样本的行为做出判断时,准确性会大大提升。例如,对总体得分的评价的准确性和一致性要比练习内评分高。

我们会在下一章再度提到这种趋势,其中我们将会检验并整合若干位测评师判断的过程。有证据将会更清楚的表明,最终的对单个维度的评分和整体的评分会有更高的一致性和准确性。

这一章对理论和研究的回顾得出了如下结论:测评师能够并且的确在评价参与者表现时遵循一种行为取向的方法。评鉴中心方法和以下几方面的理论判断是基本一致的:1)特定行为事件对人类知觉的影响;2)记忆关于个体行为事件的细节信息;3)观察者使用特定的行为信息来评价给定维度上行为表现的能力。

尽管关于评鉴中心过程中如何观察和界定行为的研究并不多,对于测评师判断的研究仍然提供了支持性和非支持性的证据。这些证据表明测评师进行评分的能力是可靠的。从积极的角度来讲,测评师最终的评分显示了一定的一致性及测评结果与后续工作业绩的关联效度。另一方面,练习内指标评分的信度各异,聚敛效度和一致性无法证明其在测量单个管理才能上具有准确性。对此,主要原因似乎是练习内指标评分和该练习内其他指标评分的相关系数高于它和其他练习相同指标上评分的相关性。这种关系模式并不如它乍看上去那么糟糕,因为研究表明这些发现可能是所使用的评鉴中心方法本身造成的。如果使用行为报告法(相对于练习内指标评分法),测评师似乎能够将他们的观察和指标更一致地结合在一起,但是这样测评师能够处理的指标数量就很有限——测评师很可能在观察和界定行为时,对六个或七个指标难以给出有意义的区分。

用以证明练习内评分无法准确测量单个管理特质的证据可能有用,也可能没用。这取决于评鉴中心的目的到底是什么。如果评鉴中心的目的是对预测个体的发展,那么单个指标评分的准确性是次要的,单个指标的评分只是一种在得出总体评论之前将评分结构化的手段。如果评鉴中心的目的是给出单项能力的优势或发展需求诊断,那么我们需要对这些单项指标做更为精确的测量。在这种情况下,评鉴中心的设计必须做到:能够对单项指标进行准确的测量、必须明确每个指标的定义、对测评师进行充分的培训、必须保证有足够的练习对每个单项指标进行测量从而获得大量的信息;建议采用行为报告法。

推荐在评鉴中心过程中使用行为报告法,主要原因在于:这种方法会影响测评师讨论和整合信息的过程。下一章会专门论述测评师讨论的过程。

第六章论述了每一个测评师进行观察和界定行为,回忆信息以及对评鉴中心的表现下判断的过程。上一章还描述了一个测评师如何在整合讨论中汇报他们的观察结果,然后形成初步的整体评分。至此,我们所探讨的仍然是个人判断的必要组成部分。接下来我们将会转向团体过程,在这其中测评师将整合他们的个人判断。

评鉴中心操作

评鉴中心过程的最后一步涉及团体决策。测评师聚到一起讨论初步的整体指标评分,并且形成最后的意见。这样,在一些评鉴中心里,这些指标评分被整合到一起,形成一个整体测评评分。

获得最终的整体指标评分

测评师们将就他们初步的整体指标评分进行交流(通常将它们放到一个书写板上),并依次讨论来解决分歧。其中会产生几种可能的评分模式:

当存在整体的一致性时(例如所有测评师都给了4分),这样整合过程就很直接,参与者就得到了4分;另一方面,如果在评分之间有区别,那么有必要进行讨论。也许有人会认为这个阶段达成一致是很有必要的,但也有些关于团体讨论的研究表明,这个阶段的不一致可能是有益的,并且可以导致最终的讨论中准确性大大提高(Libby,Trotman&Zimmer,1987;Rohrbaugh,1979;Sniezek&Henry,1989)。“不一致”的背后可能存在着多种可以导致决策更佳的有效意见(Wanous&Yountz,1986)。

传统的评鉴中心法需要团体达成一致。在这种背景下,一致性意味着每一个测评师都能够接受评分,并视其为对行为表现的一种充分的表征。

当然,一致性并不意味着每一个测评师都需在评分上达成完全一致。

同类推荐
  • 传统企业,互联网在踢门

    传统企业,互联网在踢门

    著名财经作家吴晓波认为,制造业将会由原来依靠成本优势大规模制造的模式转变成“专业化公司+信息化改造+小制造”的模式。在10年之内,会有50%~60%的中国传统制造业企业迈不过这个坎儿,惨遭淘汰。鉴于目前很多传统企业“老办法不管用,新办法不会用”的现状,本书将用“互联网的加减法” 这个简单模型清晰地说明商业新时代的游戏规则和全新玩法,帮助传统企业化解“本领恐慌” 。
  • 世界五百强企业的“责任”法则

    世界五百强企业的“责任”法则

    本书主要讲述了责任与个人利益的关系。具体包括:责任就是机会、责任感、负责任的误区、责任是事业成功的基石、构建企业责任体系等。
  • 导购应该这样做(新手入门)

    导购应该这样做(新手入门)

    《导购应该这样做》从销售终端的实际出发,列举了销售实践中最普遍、最常见的销售实例,力争让广大导购员在“真实”的销售情景中学习和掌握各种导购技巧和方法。掌握了书中介绍的这些方法和技巧。你就可以从一个导购新手逐渐成长为一名成熟的导购老手,从而使你在与顾客的对决中轻松自如、游刃有余,成功达成交易!
  • 腾讯创业内幕

    腾讯创业内幕

    作为中国市值第一、世界市值第三大互联网企业,腾讯凭一款即时通讯软件起家,在短短十多年时间内飞速成长,由单一化经营走向多元化,造就了一个庞大的“QQ帝国”,堪称中国互联网领域的一个经典神话。通过《腾讯创业内幕》的系统梳理和细致描述,从各个侧面互为印证了腾讯创业的真实内幕,同时揭示了它鲜为人知的一面。
  • 人品决定产品

    人品决定产品

    本书内容论述了人品决定企业命运,共分七章,包括:优质的产品来源于一流的人品、有诚信的员工才能做出有诚信的品牌等。
热门推荐
  • 穿越:看青梅竹马定情一生

    穿越:看青梅竹马定情一生

    于枫,千韩和安安在20岁时穿越了。穿越后他是于家少爷于枫,她是千家千金千韩。他们是青梅竹马。但在一次出游中他们遇见了安安,于枫对安安一见钟情。爱情属于青梅竹马还是一见钟情?
  • 触不到

    触不到

    我看着那背影,竟缓缓伸出手。那背影挺拔伟岸,却不是我的;他说我总是爱妄想,爱妄想他会爱我。可他偏偏不爱我。就像现在我伸出手,想要触到他,可他离我那么遥远,怎么也触不到。我恍惚地像做了场梦,一场噩梦亦或是一场春梦。但我知道事已至此,这个荒唐的梦醒不来了。
  • 仙魄传奇

    仙魄传奇

    万年之前,人、妖、魔三族并立。人族有三魂六魄,妖族有本命妖丹,魔族有不灭魔魂。妖魔两族能够牵动天地伟力,能够炼化自身,族中大能者举手投足之间翻江倒海,毁天灭地,移星换斗。而人族肉身孱弱,又无法勾连天地伟力,在妖魔两族面前沦为鱼肉。后来惊天之才盘古出世,开辟人族第七魄——仙魄。从此人族开始学会修行,族中涌现出越来越多的修行者,最终在三族大战中将妖族与魔族抹去。那些在大战中驾驭仙魄,舍生忘死,浴血奋战的修行者,受到了世人的尊崇与仰慕,后世将他们尊称为——仙魄师。
  • 独占黑暗的光明

    独占黑暗的光明

    她被发现被领养,再从被领养又遇到亲生家人,能力激发觉醒………她,是善良的天使;她,也是暗夜女王。黑暗主宰………她,不是黑暗!她是独占黑暗的女王…(本文纯属虚构,但是写作的时候难免会沉浸在里面写出各种自己的想法,如哪里不对不好直接批评,会一一改进!)
  • 神医圣手

    神医圣手

    黑心医院替罪羊李昊,意外获取到了神级医术,从此开启辉煌人生……
  • 末世之神迹重归

    末世之神迹重归

    遥远的洪荒上古隐藏了多少秘密,神秘的玉器时代到底是否存在。2016末日降临,丧尸横行异兽脱封印。天地元气重新回归,没落的养尸道最后传人又将踏上一条怎样的道路呢。
  • 快穿之书

    快穿之书

    衷心说明:文字幼稚,建议不要看谢谢!!!!
  • 战乱魅影

    战乱魅影

    2210年,主角石头是一个残疾人,从小得了一种很奇怪的病。全身骨头无力。一生都只能在福利院渡过,但是却爱上了一款名为天堂2的接入脑波类游戏,在天堂2里混的风生水起,一次偶然的事故,福利院失火,生命陨落,但是却因为脑波接入游戏,意外的穿越进了天堂2的诸神时代,开始了冒险,遇到了一个又一个队友,在命运的私语任务中,偶然得之因为自身火元素比较狂暴,追加的隐藏潜力终于被发现,能在主职业下掌握一种兽人种族职业的所有天赋技能,于是成就了诸神时代的另一个神话……可以对抗神与魔的人类……
  • EXO之守护

    EXO之守护

    你可知:“待我长发及腰。”原诗有多美?待我长发及腰,少年娶我可好。待你青丝挽正,铺十里红妆可愿。却怕长发及腰,少年倾心他人。待你青丝挽正,笑看君怀她笑。时待我发齐腰长,愿与梦郎诉衷肠。半生缠绵报君享,此情绵绵意长长。时待我发齐腰长,轻舞霓裳意飞扬。襄王神女应无恙,巫山云雨梦得偿。时待我发齐腰长,红颜老去珠也黄。秋风萧瑟雁南去,菊花半残泪成行。少年,待我长发及腰,娶我可好?
  • 黑夜现

    黑夜现

    生于黑夜,与黑夜为伴。以矫健的身手,穿梭在繁华的都市。他叫杨尘,是一个不平凡的人。