第三节操作条件作用
对操作条件作用(instrumental conditioning)学习理论贡献最大的是行为主义心理学家桑代克和斯金纳。
一、操作条件作用原理
(一)操作条件作用的实验设计
在巴甫洛夫用狗研究经典条件作用的同时,美国的一位心理学家桑代克正在用猫做不同的实验(Thorndike,1898)。他把饥饿的猫放入迷箱,食物放在箱子外面,箱子的门用几道门闩锁起来。在箱子某处安置了一个机关。猫为了获取食物对栏杆咬、抓、踢、挤均无效时,经过多次尝试错误,最后偶然碰巧触到了机关,做出了正确的行为,门打开了才出箱吃到食物。随着实验次数的增加,猫解决问题的速度也逐渐提高。根据上述实验,桑代克提出了自己的学习理论。其学习理论有两个要点:一是尝试错误学习(trial and error learning)理论,认为学习的实质就是尝试错误的过程。在问题情景中,个体会表现出多种尝试性的反应,直到一个正确反应将问题解决为止。在这些尝试中学到能获得满意结果的特定反应之后,其他无效尝试的反应就不再会出现。二是效果律(law of effect),一个反应再次发生的可能性大小由这个反应的效果决定。如果某种反应能够引起满意的结果,此行为就会被保留,学习就会发生;反之,如果某种反应不能引起满意的结果,这种反应就会削弱,此行为再次发生的概率就会降低。这就是桑代克所说的效果律。
斯金纳在桑代克研究的基础上进行了更深入细致的研究,提出了操作条件作用理论。在斯金纳的实验中,他研制了一个特殊的箱子,箱内有一与箱外联系的杠杆,杠杆下有一食物盘。如果杠杆被压下,指示灯就发亮,并有食物从外面落入食物盘中。这个装置就是著名的“斯金纳箱”。实验时,斯金纳将小白鼠放入箱中,开始小白鼠只会到处乱跑,偶然地会将杠杆压下,这时指示灯会亮一下,并有食物送入盘中,小白鼠便得到食物。小白鼠压杠杆是一种自发的行为,斯金纳把这种行为称为操作性行为。操作条件作用原理与和尝试错误作用理论相似,只是斯金纳用强化作用原理取代了桑代克的效果律。实验发现,出现食物是一种强化,是对白鼠操作行为的鼓励。在偶然压杠杆得到食物后,按压杠杆的操作行为就增多,但如果小白鼠压杠杆后不再得到食物,即没有得到强化,操作行为就会逐渐消退。
操作条件作用是指有机体学会把反应和结果联系在一起的过程。操作条件作用的实质就是从结果中学习。与经典条件作用一样,操作条件作用也可以用联结学习的原理来解释。只不过,在经典条件作用中是两种刺激的联结,任一种刺激都能引起同样的反应。而操作条件作用是刺激情境和特定反应之间的联结,即S-R联结。操作条件作用和经典条件作用的最大区别是,前者的学习个体主动地“操作”环境,属于“自发型”行为;后者的学习个体是被环境所控制,是属于“应答型”行为。
(二)操作条件作用中的强化
个体在学习情境中,影响行为巩固或再次出现的关键因素是行为的结果。如果行为的结果使反应发生的概率增加或维持在某种水平,则此结果被称为强化物。强化就是指在个体反应之后呈现强化物。
1.强化物的种类
对于人类来说,强化物可以是多种多样的。如果你完成某项任务,请你吃一顿饭是强化,用赞许的目光看着你,对你点点头也是强化。可以这么说,强化物是有机体认为有价值的任何事物或活动。一般把强化物分为三类,即一级强化物、二级强化物和反馈。
(1)一级强化物
一级强化物是自然形成的,非后天习得的,能产生舒适感或消除不适感,或能够满足即时的生理需要。如食物、水、药物和电击等都是一级强化物。比如,人感到热的时候会打开风扇或空调,饿的时候会到冰箱去寻找食物,下雨的时候会穿上雨衣或撑起雨伞,身体不适就会服药,这些行为都是受一级强化物的影响。
一级强化物有时是肉眼看不到的,比如我们跑步或进行其他剧烈体育运动时,脑内一种神经递质——内啡呔的水平会提高,使人体验到一种愉悦感,这种结果会促使跑步行为的再次发生。有心理学研究者在小白鼠脑中的特定区域植入微电极,可以刺激大脑中的快乐中枢(pleasure center)。研究者将小白鼠放入斯金纳箱中,训练小白鼠按压杠杆。每次小白鼠按下杠杆,就会接通电流,从而刺激它大脑中的快乐中枢,获得愉悦感。研究发现,许多小白鼠每小时能按压几千次!并且能够连续按十几个小时,直至因疲劳而晕倒为止。一旦苏醒过来后,又会去不断地按杠杆,全然不顾对食物和水的需要。
(2)二级强化物
金钱、奖章、赞扬、关注、成功以及其他奖赏都可以成为强化物,这种已超出了满足生理需要的强化物称为二级强化物。二级强化物是通过后天学习形成的。如幼儿园老师经常用小红花或红五角星来鼓励孩子们的上进心,或促使孩子们养成良好的习惯。每天,世界各地都在举行大大小小的评奖活动,这其实都是在利用二级强化物对人的行为施以影响。
此外,二级强化物也可以作为“代币”发挥作用。比如精神病院中的“代币”管理制度。凡是精神病患者能够保持个人卫生、积极配合医生的治疗,就可以定期得到一定的奖券,患者可用不同数量的奖券“兑换”他们想得到的物品。“代币”也可以用来提高孩子的学习积极性,比如家长可以规定,如果平时作业成绩得到十个“优”,就可以答应孩子玩几个小时游戏。许多网上论坛或博客网站采用等级制来提高人们再次浏览的可能性,实际上也是在遵循这个原理。
(3)反馈
反馈也是一种强化物。心理学家发现,通过信息反馈,即知道行为的结果,就可以提高学习的成绩。作为一种强化物,反馈在电子游戏里是最常见的。许多人喜欢玩电子游戏是因为游戏中设计了很多级别,每个级别中又会有许多步骤,玩家每完成一个步骤就会有分数反馈回来,同时也会显示其所达到的级别。往往在没达到最高级别之前,一局游戏已结束,玩家要想得到更多的反馈,只能继续玩下去。再比如,电视上各种娱乐节目中的比赛实行计分制也是这个道理。运动员在平时训练中如果能及时得到反馈也会收到很好的效果。朋友间的一些娱乐活动在计分情况下会玩得更带劲。
此外,那些学习努力或工作勤奋的人似乎总有某种动力在激励他们。实际上,他们通过学习或工作达到一个目标,或达到一个距离理想目标更近的目标,这些目标的实现就是一种信息反馈,就是他们努力行为的强化物。
2.强化类型
按不同的分类方式,强化分为正强化和负强化,连续强化和部分强化。
(1)正强化和负强化
正强化是指一个反应之后伴随着一个愉快的结果出现。如某人的笑话赢得了朋友的笑声,那么这个人下次在众人面前讲笑话的可能性就会增加。体育健儿通过努力获得奥运奖牌是一种正强化。买彩票中奖和赌博赢钱也属于正强化。
负强化是指一个反应之后可以消除一个不愉快事件。如在一个特制的斯金纳箱中,小白鼠只有通过按压杠杆才能逃避电击(不愉快事件),很快小白鼠就能学会按压杠杆逃避电击。再比如,我们可以通过吃东西消除饥饿,通过吃止痛药缓解疼痛。在日常生活中,有些家长通过体罚孩子阻止孩子的吵闹行为,其结果进一步强化了家长的体罚行为。
吸毒成瘾过程可以同时说明正、负强化这两种现象。在个体成瘾初期,由于个体通过吸毒能够体验到一种欣快感,这种欣快感会强化个体进一步的吸毒行为,这种强化属于正强化。到了成瘾后期,不吸毒品,个体就很难受,吸毒可以消除这种痛苦的感受,这种负强化就增加了个体的吸毒行为再次发生的可能性。
(2)连续强化和部分强化
通过负强化所获得的反应行为不会很快消退,正强化所获得的反应行为消退的快慢与其习得时所采用的强化时间模式有关。这种模式分为连续强化和部分强化。连续强化是指只要个体表现正确就给予强化。部分强化是指在部分正确反应之后给予个体强化。与连续强化相比,部分强化所习得的反应不易消退。其中,部分强化又分为固定时间强化、不定时间强化、固定比率强化、不定比率强化。
固定时间强化是指对于个体的正确反应,经过一段固定的时间间隔之后给予强化。按月给员工发薪水就是这种强化模式。不定时间强化不是在个体每个正确反应之后都强化,强化之前所经过的时间间隔会有所变化。商家不定期的促销活动就是利用这种强化模式来强化人们的购买行为的。固定比率强化是指个体在做出一定数量的正确反应后给予强化。如计件工资的方法就属于这种强化类型。不定比率强化是指根据个体做出的正确反应数量实施强化,但要求每次的数量有所变化。比如,彩票中的偶尔中奖,在赌博中赢钱及人们的一些迷信行为就属于这种强化类型。
这四种强化类型中,不定时间强化和不定比率强化所形成的反应最难以消退,其次就是固定比率强化,固定时间强化所形成的反应最易消退。
心理学实验室习得性无助实验
1975年,心理学家塞里格曼做了一个实验。他把狗分为两组:一组为实验组,一组为控制组。
先将实验组的狗放在一个笼子里,狗无法逃脱这个笼子。笼子里有电击装置。给狗施加电击,电击的强度能够引起狗的疼痛,但不会伤害狗的身体。实验者发现,一开始,几只狗被电击时拼命挣扎,想逃脱笼子。经过再三努力,狗发觉仍然无法逃脱后,挣扎的程度就逐渐降低了。
随后,把这几只狗放进另一只笼子。这个笼子由两部分组成,中间用隔板隔开,隔板的高度是狗能轻易跳过去的。隔板一端有电击,另一端没有。面对如此容易逃脱的环境,它们却试也不去试一下,就已绝望地接受了无法逃脱的“现实”。
而将对照组中的狗(即那些没有经历过前面第一个实验程序的狗)直接放进后一个笼子里,发现它们全部能逃脱电击之苦,轻而易举地从有电击的一边跳到安全的一边。
实验组的狗由于曾经有过被电击而无法逃脱的经历,所以很快就放弃了挣扎,放弃了逃脱的希望。这是和操作条件作用原理有关的一个习得性无助的例子。在现实生活中,因经常遭遇挫折而形成自卑情绪的人比比皆是。要想克服这种自卑感,就需要树立信心,给自己感受成功体验的机会。
(资料来源:陈书凯《动物实验的人生启示》,哈尔滨出版社2004年版,第2-3页)
(二)操作条件作用中的惩罚
1.惩罚的概念
惩罚也是控制人们行为的一种方法,比如体罚、批评、罚款、解雇或剥夺某种权利等。与强化相反,惩罚是为了降低某种反应再次发生的可能性。一个操作反应的消退既可以采取不加以强化的办法,也可以采用惩罚。例如,想阻止一个孩子通过哭闹来要求家长买玩具的行为,可以不理睬他,也可以批评他或取消他一周的零花钱。
惩罚也分正、负两种。正惩罚是指直接惩罚,即在某一行为之后出现讨厌的刺激,直接令人不愉快。如汽车司机因违章而被罚款。负惩罚是指反应代价,即当某一行为之后喜爱的刺激被取消。比如在一些电视娱乐节目中,回答错误会取消参与者继续比赛的资格。