国外关于测试效应的研究概述 心理学常见的166个效应

发布时间:2020-03-03 来源: 感恩亲情 点击:

  摘要 测试效应的研究表明,“学习”并非只发生在编码阶段,测试或提取练习除了可评估知识掌握程度之外,在某些情况下它比再次学习能更好地促进长时记忆保持。文章从如下方面概述了国外关于测试效应的研究:(1)在自由回忆、配对联想学习、再认和模拟教育情境等不同性质的实验任务下测试对学习的积极作用;(2)测试可能导致的消极作用,介绍有关提取导致遗忘,测试的消极暗示效应,测试与错误记忆等方面的研究;(3)介绍信息额外呈现理论,过度学习理论,提取努力理论,必要难度理论,迁移适当加工理论等测试效应的有关理论及其发展沿革。最后,结合研究中的争议及教学应用做了思考,并指出有待进一步研究的问题。
  关键词 测试效应,消极效应,提取,长时记忆。
  分类号 B849;G442
  
  1 什么是测试效应
  
  1.1测试效应的概念
  测试效应(testing effect)指学习某一内容时,进行测试比额外学习能更好地提高后来对它的记忆保持水平,即便在测试无反馈时也是如此。理解这一概念应先区分测试的间接作用和直接作用,测试的间接作用指测试可通过各种方式促进学习,如,课堂测试可促使学生在一堂课中不断地学习,测试还可使学生从测试结果中得到反馈,学习过程中的自我测试可引导学生下一步应学什么等。而测试的直接作用指测试这一行为本身提高了学习和长时记忆,即测试效应。
  通过测试提高记忆保持水平并非新观点,James(1890)在其《心理学原理》一书中就讨论了测试的作用,“……”我们的记忆有一个奇怪的特性,即积极的重复比消极的重复能让我们更好地记忆。我的意思是,当我们几乎学会了某一内容时,与其再看一遍这些内容,不如停下来试着回忆一下。如果我们能通过后一种方式回忆出一些内容,那么在下一次我们应该也能回忆出来;而如果是以前一种方式,我们很可能需要再学一次……”。这一现象虽然早已为认知心理学家所关注,但一直以来并未有系统的研究。人们往往认为测试只是衡量学生学习水平的一种评估工具,而只有通过学习或对材料的编码才是真正地“学习”。新近一些研究重新关注测试效应,这些研究使我们进一步认识到测试不仅可用于评估知识掌握水平,还能使个体所掌握的知识结构发生变化,极大地提高知识的记忆保持程度。例如,有关测试效应的研究表明,学习某一内容时,重学一遍可增强提取流畅性(retrieval fluency),它使个体对自己的记忆水平更自信,从而在学习时倾向于选择重学,而实际上重学只促进了短期记忆水平,测试则导致了更好的长时记忆水平。因此,理解测试效应,掌握科学的自我测试策略,可使学生改变错误的或低效的学习观念,在相同的甚或更少的时间(与重复学习相比)星取得更好的学习效果,实现高效率学习。
  
  1.2测试效应的基本研究范式
  研究测试效应的最常见的实验设计是:学习材料→一次或多次初始测试(initial test)→衡量被试记忆保持程度的最终测试(final test)。实验一般设立一个实验组(进行测试)和一个或两个控制组,考查实验结果时将测试组的成绩与控制组进行对比。控制组一般有两种:①学习材料→无初始测试→最终测试;②学习材料→再次学习→最终测试,该条件下控制组和测试组接触材料的总的时间相同。
  通过修改基本范式,研究者可以探讨各种条件下的测试效应,如学习的材料(无关词对、联想词对、散文等),初始和最终测试的形式(自由回忆、再认、线索回忆等),是否对测试提供反馈以及反馈的形式,学习阶段和第一次测试的时间间隔,最终测试之前的记忆保持间隔(retention interval)等。
  
  1.3 Tulving的经典研究
  人们往往认为学习只发生在学习(编码)阶段,而测试的作用仅是显示个体在之前的学习阶段学到了什么。Tulving(1967)用实验证明了学习不仅只发生在编码阶段,测试本身也是一种学习。TuNing让被试在三种实验条件下学习包含36个单词的词表。一是标准学习条件:学词表(study),回忆(test),再学,再回忆,即STST:一是重复学习,被试学习三次测试一次,即SSST;一是重复测试,被试学习一次测试三次,即STTT。三种学习条件下的学习次数共为24次,因此标准学习条件下分别为12次学习,12次测试,重复学习条件下为18次学习,6次测试,重复测试条件下为6次学习,18次测试。如果“学习”(对某一内容的最终掌握)仅在学习或编码时发生,那么SSST组的掌握水平应比STST组来得更好,因为它多了6次学习,而STTT组由于学习的次数最少最终掌握水平理应最差。但Tulving的实验发现三种学习条件下的被试在最终测试上的成绩几乎是相同的,STST组和SSST组都回忆了约20个单词,STTT组回忆了约18.5个单词。从某种意义上来说,一次测试可相当于一次学习。
  
  2 不同实验条件下测试对学习的促进作用
  
  Tulving(1967)的经典研究探讨了测试对自由回忆的促进作用,之后的研究者陆续对配对联想任务、再认等其他回忆形式的测试效应进行了研究。此外,研究者还以散文、GRE单词等为实验材料考察了真实教育情境中的测试效应。
  
  2.1自由回忆中的测试效应
  Tulving(1967)的研究引发了大量的相关研究,但大多数研究都仿照Tulving的设计或仅改变一些变量。这些研究在方法上有一个共同之处,即学习时间和测试时间是均等的,且在学习阶段呈现单词的速度和最终测试的时间都很短,实验中的测试都采用自由回忆形式。如Tulving(1967)的研究中,学习阶段36个单词的呈现速度为1个/秒,在测试阶段被试回忆这些单词的时间也仅为36秒。在这种实验条件下,是否有可能因为时间过短而使得被试即便学会了36个单词也无法在规定时间内将其回忆出来?Roediger和Thorpe(1978)对自由回忆与回忆时间的关系的研究表明,过短的测试时间将大大低估被试所习得的知识量,从而可能低估了测试效应,但研究者未在这一发现的基础之上做进一步的探索。为更准确地考查被试的回忆量,Karpicke和Roediger(2007)模仿了Tulving的三种实验条件,即STST,SSST,STTT,但为避免对被试回忆水平的低估,以3秒1个的速率呈现单词,这样测试和学习的时间都增加到2分钟,每种实验条件都进行5次循环(如标准测试条件下为STST,STST,STST,STST,STST)。为考查三种实验条件对长时记忆的不同作用,研究者进一步探讨了一周后三种学习条件下被试的记忆保持水平。结果表明,STTT组在开始阶段(第一次和第二次循环的最后一次测试)处于劣势,但很快地赶上SSST组,两种条件在后面的测试中差异很小。STST组被试在最后4次测试上 的回忆水平都显著地好于SSST和STTT。因此,总体而言该研究结果与Tulving(1967)的结果相符,三种实验条件下的学习曲线很相似,但该研究还发现了STST的测试成绩与STTT和SSST的差异,研究者认为这是由于在STST中,测试(T)之后伴随学习(S),这相当于对回忆失败内容的反馈,在STST中这种反馈的机会多于其他两种条件。此外,更重要的是,该研究考查了被试在1周后的记忆保持水平,发现SSST的回忆率显著低于STST和STTT,后两者无显著差异,这证明了测试对于提高长时记忆保持的作用。
  为更具体地考察多次测试与多次学习的效应,研究者还考查了不同的重复测试与重复学习条件下的学习效果,以及测试次数对测试效应的影响。
  Thompson等(1978)的实验发现适当的“学习一测试”方式将导致更好的学习效果。实验设计了三种条件,一为SSSS,词表呈现4次;一为STTT,学一次,进行三次自由回忆;一为STRTRTR(TR指再次学习回忆失败的单词后进行自由回忆),学一遍词表后进行回忆,再学时仅学习那些回忆失败的单词,然后再回忆所有单词,如此重复三次,该设计实际上模拟学生在学习过程中可能存在的学习方式,即学生往往是先学习某一内容,接着通过自我测试看看自己是否掌握,然后再学习那些未掌握的内容,如此反复,直到完全掌握。最终测试分别在5分钟或2天后进行。结果发现,5分钟后的测试中,三种实验条件下的回忆成绩为STRTRTR>SSSS>STTT。但两天后的回忆成绩发生变化,STRTRTR>STTT>SSSS,SSSS组在前一次所能回忆出的单词的基础上遗忘率为56%,STRTRTR组被26%,而STTT组仅为13%。
  受Thompson等的研究的启发,Karpicke和Roediger(2007)在其研究的一个实验中让被试在四种学习条件下学习,分别为STST,SSTT,STSnT(Sn指只学回忆失败的词),STSnTn(Tn指只回忆之前无法回忆的词),结果发现,在一周后的测试中STSnTn组的回忆水平最差,因此是否进行回忆测试是决定长时记忆保持水平的重要因素。Wheeler等(2003)的研究对比了重复学习和重复测试在即时和延时测试中的不同影响。实验扩展了学习和测试的次数,被试在重复学习(SSSSS)和重复测试(STTTT)两种条件下学习40个单词,然后在5分钟和1周后进行自由回忆测试。结果发现,虽然在SSSSS条件下,每个学习阶段被试都学习了所有的40个单词,而在STTTT条件下,被试所接触的仅是他们能回忆起的那些单词,但SSSSS组被试仅在5分钟后进行的回忆测试中好于STTTT组,而在一周后的测试中结果完全相反,这强有力地证明了测试效应显著作用。Wheeler和Roediger(1992)的一项研究探讨了多次测试的效果与单次测试效果的差异。实验让被试听一个包含60个具体物体名称的故事,每一物体在故事中第一次出现时都在显示屏上以图片形式呈现,最终测试要求被试回忆图片的名称。呈现结束后,实验组1进行一次7分钟的回忆测试后离开,实验组2进行了三次回忆测试后离开,控制组在呈现结束后离开实验室,要求所有被试一周后回来继续实验。结果发现,从遗忘率来看,实验组2一周后遗忘率为13%,实验组1为27%,控制组为46%,重复测试促成最低的遗忘率。
  
  2.2配对联想学习中的测试效应
  配对联想学习往往以不同联想度的词对或“非词一词”(如,“BLSM一笔画”)为任务,在测试效应的有关研究中经常使用,因为它使研究者可以很方便地控制学习和测试之间的时间间隔,而且也很容易控制反馈。下面介绍Alan(1969)和Jacoby(1978)以配对联想学习为任务探讨测试效应的两个代表性研究,并着重介绍采用配对联想学习任务进行的集中与分散测试对记忆水平影响的有关研究。
  2.2.1配对联想测验中的测试效应
  Allen等(1969)让两组被试分别学习配对联想词表5次或10次,然后分无测试,一次测试,五次测试三种测试情况,一天后进行最终测试(形式为horse-?),结果发现学习10次的效果仅稍好于5次,但进行一次测试后则使10次学习组的成绩远高于5次学习组;学习5次测试1次的被试在最终测试中的成绩相当于学习10次无初始测试的被试,也即单次测试对长期记忆保持的效果相当于5次学习。
  Jacoby(1978)著名的残词补全实验也证明了配对联想学习中的测试效应,实验采用了2(重学、测试)×2(即时、延时)的实验设计。让被试先学习联想词对(如,foot-shoe),再学时分两种条件:一是重学完整词对;一是给被试提供词对左边的单词,要求将右边的残词补全,如(foot-se)。这两种条件又各分两种情况,一是学习后立即进行(即时),一是插入20个词对(延迟)。最终测试的形式“foot-????”。结果表明,残词补全测试比重学完整词导致了更好的记忆保持水平,延时测试的效果要好于即时测试,Jacoby认为这是由于学习之后的即时测试减小了记忆提取过程中努力加工的程度,从而削弱了测试效应。Jaeoby的这一实验往往被看作是研究生成效应(generation effect)的先驱,生成效应指学习某一材料时,生成相关知识比阅读材料将导致更好的回忆或再认水平),而生成效应从某种程度上来说是测试效应的一种。
  Jocoby的实验中残词补全测试导致了极高水平的回忆率(大于90%),虽然Carrier和Pashler(1992),Kuo和Hirshrnan(1996)使用标准的线索一回忆测验作为测试任务并未产生如此高水平的回忆成绩,但总的来说都发现了测试对配对一联想词对的记忆保持的积极作用。Cull(2000),Pashler等(2005)的研究还发现,对测试中未能回忆出的词对给予反馈将增强测试效应。
  2.2.2配对联想学习的集中与分散测试效应
  由于配对联想学习任务易于控制学习与测试之间的时间间隔,便于研究者探讨集中或分散测试对学习的不同影响,因此配对联想学习任务成为研究集中或分散测试效应的主要任务形式。
  虽然早在19世纪初Ebbinghaus等就探讨集中学习与分散学习的关系,但对提取是否也具有集中和分散效应的研究则以Landauer和Bjork(1978)的研究为标志。Landauer和Bjork(1978)通过两个 实验比较了配对一联想学习中,扩展式测试与等间隔测试对学习的不同影响,实验1采用“名-姓”词对,实验2采用“名字-人面”词对。实验中的扩展式测试的形式为1―5―9(数字代表学习某一词对A-B后进行测试之前插入的学习或测试的次数),等间隔测试的形式即为5―5―5,二者的平均间隔数相等,实验另外还设立了集中测试组,即学完之后连续测试,0-0-0;各条件下的测试都不提供反馈。结果表明,扩展式测试组在最终的延时测试上的回忆成绩好于等间隔测试组,而等间隔测试组的成绩好于集中测试组。虽然集中测试使被试在学习的开始阶段几乎不发生错误,但在最终测试上扩展式测试和等间隔式测试的成绩比集中测试更好,扩展式测试组的成绩略好于等间隔式测试。
  Landauer和Bjork的研究引发了一系列相关研究,大多数研究都发现两种分散测试形式在延时测试中的成绩都好于集中测试,但对于扩展式测试在促进长时记忆上是否优于等间隔测试的问题则存在较大的争议。Balom等(2006)比较了扩展性测试、等间隔测试和集中测试对三组被试(年轻成人、健康的年长成人、Alzheimer病的年长成人)的不同影响。被试学习材料(低关联度词对)后分三种实验条件进行初始测试:集中测试(0-0-0),等间隔测试(3-3-3),扩展式测试(1-3-5),最后进行最终测试。结果发现,在学习阶段,三组被试在集中测试的情况下均表现了最好的水平,在扩展式测试情况下其次,而在等间隔测试情况下表现最差。但在最终测试中,三组被试在等间隔测试和扩展式测试情况下并无差异,但都好于集中测试情况下的成绩。Carpenter和Delosh(2005)以“姓名-人面”配对为实验材料的研究也发现了类似的现象,但研究发现在最终测试上等间隔测试组的成绩略好于扩展性测试组。
  Karpieke和Roediger(2007)让被试学习“词汇一释义”类型的词对,然后分别在三种测试形式下学习:集中测试(0-0-0),等间隔测试(5-5-5),扩展式测试(1-5-9),最后分别在10分钟或2天后对被试进行测试。结果发现,在两种最终测试条件下,分散测试的成绩都优于集中测试。在10分钟后的测试中,扩展性测试组的成绩略好于等间隔测试,但在48小时之后的测试中,等间隔测试组的回忆成绩高于扩展式测试组。这一研究表明,等间隔测试可能比扩展式测试能更好地促进长时记忆,研究者认为初次提取尝试的时间间隔是关键因素,即初次提取的间隔越长将导致提取的难度越大。这与Bjork(1992)的提取难度理论一致,该理论认为提取时一定的难度将导致更好的记忆保持。Pashler等(2003)以配对联想词为材料的研究也表明,虽然随着学习之后进行首次测试的间隔时间的增大,被试在初次测试中的成绩往往是呈下降趋势的,但延长首次测试的时间间隔促进了长时记忆。
  
  2.3再认任务中的测试效应
  有关测试效应的研究大都使用自由回忆或配对联想学习任务,而较少采用再认任务,这可能与采用再认任务探讨测试效应时结论不尽一致有关。如,Roediger和McDermott(1995),Hicks和Stams(2004),以及Verde(2004)等的研究让被试在学习之后进行回忆测试,而最终测试为再认测试,发现回忆测试提高了再认测试的成绩。但Jones和Roediger(1995)的研究采用类似的实验程序却未发现测试效应。
  Chan和McDermott(2007)为澄清再认任务中的测试效应,借用了Sacoby(1991)的再认的双过程理论,Jacoby认为再认水平由有意识控制下的回忆过程(recollection)和自动加工的熟悉性(familiarity)共同决定。Chan等假设,当最终测试任务为回忆任务时总能出现测试效应是因为回忆测试对随后的有意识回忆产生了促进作用,而当最终测试为再认任务时,虽然测试也提高了再认中的有意回忆成分,但这一作用被起更大作用的熟悉性所掩蔽。Chan等用三个实验探讨了初始测试在有意识回忆和熟悉性上对最终测试的影响作用,结果发现,测试虽然未影响再认击中率,但它改变了做出再认判断的内在过程,初始测试提高了再认中的有意回忆成分,但不改变其中的熟悉性。Chan等的研究对于探讨测试效应的机制有重要启示,如,有关自由回忆的测试效应的研究表明测试促进了长时记忆,而重学则促进了短期内的记忆水平,这一现象是否由测试促进了有意回忆、重学增强了熟悉性所导致?也即,正是由于测试促进了有意回忆并因而促进了长时记忆,重学增强了熟悉性并因而仅促进了短期内的记忆水平?
  
  2.4对真实教育情境中的测试效应的探讨
  关于测试效应的研究大部分是通过实验室实验进行的,为便于实验控制,实验材料多采用词表或无关词对,但真实教育情境中的学习材料与词表或无关词对毕竟是不同的,当以教育实践中的学习材料为实验材料时是否仍然产生测试效应呢?现有的相关研究主要通过操纵材料和测试形式探讨真实教育情境中的测试效应。
  2.4.1不同学习材料和测试形式的测试效应
  当前以真实教育材料作为实验材料探讨测试效应的有代表性的研究主要有Carrier和Pashler(1992)年以外语词汇为实验材料的研究,Karpicke和Roediger(2006)以GRE备考书中的材料作为实验材料的研究,以及Roediger和Karpicke(2006)以科学小品文为实验材料的研究等1221,这些研究总体而言都发现了显著的测试效应。下面以Roediger和Karpieke(2006)的研究为典型进行介绍。
  Roediger和Karpicke的研究中的第一个实验让大学生被试在两种实验条件下学习科学小品文,一组为重学组,即被试在首次学习之后重复学习整篇文章,另一组为自由回忆组,即在首次学习后要求被试尽可能地将其所能回忆起的文章内容写下,但不提供反馈。重学和自由回忆的时间都为7分钟。最后考查各实验条件下的被试在5分钟、3天、1周后的测试成绩。结果发现,5分钟后的测试中,重学组的回忆率稍好于测试组;但在2天后的测试中,测试组和重学组的回忆率分别为68%和54%,一周后两组的回忆率分别为56%和42%,测试组明显高于重学组。为进一步探讨重复学习和重复测试对记忆保持的影响,Roediger和Karpicke进行了第二个实验。实验条件为SSSS、SSST、STTT。分别在5分钟和1周后进行最终测试。结果表明,在5分钟后的测试中,回忆率与重复学习呈正相关,即SSSS组好于SSST组,而SSST组好于STTT组;在1周后的测试中,回忆率转变为与测试次数呈正相关,即STTT组的回忆率要好于SSST组,SSST组好于SSSS组。
  2.4.2不同测试形式之间的相互作用   真实教育情境中充满各种不同形式的测试,是否某种测试形式比其他的形式更能促进记忆保持,或是否某一特定的测试形式只能对后来的测试中的相同形式起促进作用?Duchastel(1981)的一个实验对不同测试形式的作用做了初步探讨。实验将被试分三组,一组在学完之后进行简答式测试,一组进行选择题测试,另一组只继续学习。两周后进行简答式测试,结果发现进行测试的两组被试比继续学习组被试表现了更好的记忆保持力,而简答式测试组比选择题测试组表现了更好的记忆保持水平。
  Kang等(2007)的一个实验进一步考查了简答式测试和选择题测试的测试效应。实验让被试先学习文章,实验组每学完一篇文章后进行一次简答式测试或选择题测试,测试之后提供反馈;控制组被试读完文章后接着阅读一些选自文章的句子,它们与选择题测试和简答式测试中所涉及的内容相同。三天后进行测试,测试形式包括简答式测试及选择题测试。结果发现,初始测试为简答式测试的被试在两种测试形式中都表现出最好的记忆保持水平。Butler和Roediger(2007),MeDaniel等(2007)采用类似的实验设计也报告了相似的结果。
  
  3 对测试可能存在的消极效应的研究
  
  狭义的测试效应往往指测试对学习的积极作用,但研究发现测试还可能对学习产生消极影响,当前的相关研究主要集中在两个方面:一是先前测试时的提取可能会干扰或削弱个体在后来测试时对材料的回忆;二是某些类型的测试会对个体掌握知识产生消极作用。
  
  3.1提取导致遗忘
  有关提取导致遗忘的(Retrieval induced forgetting,RIF)研究揭示了之前的提取对后来回忆的抑制作用。Roediger(1978)早期的一个实验说明了回忆的抑制作用。实验材料为10个类别性词表,每一类包括5个词,实验有四种条件,分别为不提示类别名称,提示3个、5个或7个类别名称。最终测试要求被试回忆所有词。结果发现,提示类别名称组比无提示组的回忆成绩更好,但当要求被试在无提示的情况下回忆时,提示组的成绩反而比无提示组差。研究者认为这是由于提示组被试借助各类别线索进行回忆,从而限制了在各类别间的储存和提取,而类别名称的提示越多,这种限制就越大。
  Anderson等(1994)采用提取练习范式(retrieval practice paradigm)对RIF进行了研究。实验包括三个阶段:学习,提取练习和最终测试(类似于测试效应的实验设计)。学习阶段,被试学习“类别名称一所属项目”形式的词对,如“fruit-orange”;练习阶段,形式为“fruit-o_____”,要求回忆缺失部分,但只对其中的部分项目进行测试。最后测试形式为提供类别名称,要求回忆出该类别下的所有项目。采用提取练习范式的实验结果都表明,学习阶段得到提取练习的项目在最后测试中的回忆水平得到了明显的提高(测试效应),但未得到练习的另一部分项目的回忆水平却受到抑制。
  
  3.2测试的消极暗示效应
  测试的消极暗示效应(hegative suggestion effects)指由于测试时的提取行为强化了后来的提取过程,而如果个体在测试过程中出现错误,则可能因此而习得错误的信息。例如在选择题或是非判断题形式的测试中,学生有可能将错误的选项看作是正确的,甚至即便学生在阅读一个错误的句子时知道它是错误的,他们在将来也可能会把错误的句子看作是正确的。早在20世纪八九十年代研究者就对这一现象做了探讨。Toppino和Brochin(1989)让学生完成是非判断题,测试结束后,将之前出现过的错误句和未出现过的与之相似的错误句混在一起,要求被试判断正误,结果发现重复出现的句子比未出现过的新句子更容易被判断为正确。Tippino和Luipersbeck(1993)以选择题的错误选项为材料也得到类似的结论。Brown等(1999)的实验在被试完成测验后呈现错误信息,结果发现被试在随后的“线索一回忆”和选择题测验中都受到消极影响,而且即便研究者告知被试那些信息是错误,仍然出现这种消极作用。
  Roediger和Marsh(2005)以选择题为实验材料,探讨了是否测验的消极暗示效应大于测验的积极效应。实验的基本程序为“阅读短文一选择题测试一视觉空间推理任务(分心任务)一线索回忆测试”。结果发现,选择题测试(未提供反馈)对随后的线索回忆任务有促进作用,但也可能会使被试将错误选项误认为是正确的(当材料陌生时这种效应更明显),而且选项越多,积极的测试效应越小。增加干扰选项不仅降低了线索回忆的正确反应率,还提高了被试在线索回忆中用干扰选项回答的概率[27]。 Butler等(2006)对选择题测试中出现消极暗示效应的原因进行了探讨,认为被试在选择题测试中的表现水平是决定选择题测试起积极还是消极作用的关键因素,如果测验非常简单,被试几乎都能选择正确答案,那么测验的干扰题项数就能起积极作用;而如果选择题较难,被试容易出错,则易导致消极暗示效应,并且随选择题干扰项的增加而增加。
  此外,消极暗示效应并不只限于选择题或是非判断题。Henkel(2004)让被试观看一些图片并进行想象,然后进行一系列回忆测试,结果发现测试将使被试更有可能错误地将之前所想象的图判断为是原来观察过的图,Henkel认为“识记时的反复尝试……可能为来源误判提供了丰富的土壤”,包括将自认为的、推测的或想象的内容记作是确实出现过的,“个体为更好地记住某些信息而进行提取练习的过程包含了多个不同的认知过程,如提取最易提取的信息,搜索额外信息,对信息进行评价等,每一过程都融合了个体的想象、修饰和重构的过程。多次的重复提取可能同时增强了个体正确地或错误地回忆起信息的信心,以及鲜明程度”。Meade和Roediger(2006)的实验研究也表明,被试在一次测验中错误回忆的信息很可能在下一次测验中再次出现。
  
  3.3测试与错误记忆
  Roediger和McDermott的系列研究表明,测试将可能增强错误记忆(false memory)。Roediger和McDermott(1995)采用DRaM(Deese-Roediger-McDermott)范式的研究发现在并无明显误导信息的情况下,测试也将导致错误再认。实验采用被试内设计,被试学习16份词表,每份词包含15个语义关联词对(如,hill,valley),每学完一份词表后提示被试回忆词表或解数学题,5分钟后进行再认测试。结果表明,与学习后解数学题的情况相比,进行初始测试既提高了对已学词的击中率,也提高了对关键诱饵(critical lure,如mountain)的虚惊率。 且“记得-熟悉”(remember-know)判断的结果表明测试还使被试更坚信自己记得关键诱饵呈现时的具体信息。由于后来的相关研究发现该研究的可重复性不稳定,McDermott(1996)对DRM范式做了适当变式,即让被试先进行学习或测试,然后分别在2天后进行自由回忆测试,结果发现在学习后进行测试的情况下,被试回忆出关键诱饵的可能性是未进行测试情况下的2倍,因此,以自由回忆代替再认作为最终测试任务将导致显著的错误记忆。McDermott(2006)还探讨了不同测试次数对错误记忆的影响,实验让被试学完每份词表后分别进行0、1或3次的初始测试,最后进行自由回忆测试。结果发现,测试提高了正确回忆的可能性,但同时提高了错误回忆某的可能性,进行3次初始测试的被试对已学词的回忆随着测试次数的增加出现遗忘,但对关键诱饵的回忆则随着测试次数的增加而增加。
  
  4 测试效应的有关理论及其发展
  
  在某些条件下测试对学习既可能有积极的促进作用,也可能产生消极影响,狭义的测试效应主要指测试的积极效应。关于测试的消极影响,如提取导致遗忘,错误记忆等,已形成相应的理论解释。这里主要介绍对狭义层面上的测试效应进行解释的五种理论的发展沿革:(1)信息额外呈现理论(additional exposure),(2)过度学习理论(over-learning),(3)提取努力理论(effortful retrieval),(4)必要难度理论(desirable difficulties),(5)迁移适当加工理论(transfer-appropriate processing,简称TAP)。
  
  4.1信息的额外呈现理论
  Thompson等(1978)认为,测试材料相当于为学习者额外地呈现了相关信息,而正是这种额外的呈现导致了测试效应。这一解释主要与当时研究测试效应的实验操作有关。当时的实验往往设计两种学习条件,一种是让被试先学习材料,一段时间后进行测试;另一种是让被试先学习材料,接着再进行一次初始测试,最后再进行与前一实验条件相同的测试。这种设计混淆了测试效应与信息额外呈现的作用,因为此时的测试效应可能是由初始测试时材料的额外呈现或者额外的学习时间而促成的。后来的研究者通过简单的实验操作分离了这一混淆效应:让控制组被试在实验组进行初始测试时再学材料,从而使两组被试在材料上的学习时间等同。实际上这种设计使得控制组比实验组更多地接触了材料(而不是等同),因为实验组被试在进行初始测试后未加以反馈,因此他们实际上只接触了那些测试时能回忆出的内容,而此时实验组仍然出现显著的测试效应。这表明除了在材料上的额外学习外,应该还有其他因素导致测试效应的产生。
  
  4.2过度学习理论
  Slamecka和Katsaiti(1988)认为测试效应只是反映了测试项目得到过度学习,因此是由于提取使被试对部分材料的过度学习,而不是提取过程本身促进了后来的回忆。这一理论实际上与上述的信息额外呈现理论有相似之处,二者都认为测试效应的产生有赖于额外的或过度的编码过程。这一解释也遭到许多研究者的置疑。如,Wheeler等(2003)以及Roediger和Karpicke(2006)的研究都发现,如果在重复学习或重复测试之后的短时间内进行测试(如5分钟或10分钟后),重复学习很明显地导致了“过度学习”,但从延时测试(3天或1周后)来看,这种“过度学习”并不能促进长时记忆,相反,测试导致了更好的长时记忆。因此,额外呈现或过度学习可以解释各种回忆间隔下的主效应,但不能解释它们之间的交互作用。Chan等(2006)的一项研究发现,提取练习不仅能促进对测试内容本身的记忆,而且还在一定程度上促进了未进行测试但与测试内容相关的内容的记忆,而这一促进作用却未发生在提供了额外学习的被试身上。这种测试效应用额外呈现或过度学习的观点是无法解释测试的,测试效应的产生包含了更为复杂的内部过程。
  
  4.3提取努力理论
  由于上述理论无法很好地解释测试效应,研究者们从更深层次对这一问题展开探讨:是否测试时的提取过程导致测试效应?Jacoby的一系列研究探讨了这一问题。Jacoby(1978)的一个实验中,被试在两种条件下学习,一是解决问题,一是记住答案,结果发现前者的学习水平好于后者,Jaeoby认为这是由于前者需要个体付出提取努力。Jacoby等(2005)和lacoby等(2005)采用记忆新词范式(memory-for-foils paradigm)考察了不同提取深度对记忆的影响,结果发现在大学生被试中,与浅层加工相比,深层加工之后进行再认测试提高了随后测验中对新单词的再认,首次测验的提取深度影响了随后测验中对新单词的再认。Pashler等(2003)的研究发现增大初始测试的间隔(即增大提取所需努力)将导致更好的回忆成绩,也支持了这一理论。
  
  4.4必要难度理论
  Bjork和Bjork(1992,1994,1999)在提取努力理论的基础上进一步提出必要难度理论来解释测试效应。Bjork区分了存储力(storage strength)和提取力(retrieval strength)两个概念的不同,前者指记忆痕迹的相对持久性,后者指记忆痕迹的即时可获得性,类似于提取流畅性(retrieval fluency)的概念。必要难度理论认为,提取力与存储力的增长呈负相关,即提取容易(高提取力)并不能促进存储力,而更为努力的提取却能提高存储力,使记忆保持更持久,能促进学习的长期保持力。而Jacoby,Bjork和Kelly的研究发现,学生往往根据当前加工的流畅性(提取力)来衡量当前学习水平,因此学习时往往倾向于选择可促进当前加工流畅性的策略,如集中学习,而实际上不流畅加工更有利于长时学习,如分散学习,延迟反馈或进行自我测试等。
  这一理论得到许多研究的支持。Bjork(1999),Koriat和Bjork(2005,2006)的研究让被试在重复学习之后对回忆水平做判断(JOL),发现以当前加工的流畅性来监测和指导学习容易使被试对自己的学习水平的判断产生错觉,认为在随后的测试中可以表现得很好,且由于测试相对于重复学习需要一定努力,使学生可能不倾向于选择自我测试。Roediger和KarDicke(2006)的研究发现重复测试相对于重复学习减缓了最初阶段的学习,但却大大地提高了长时记忆保持,研究者认为这时由于相对于“重复学习”而言,测试提供了“必要的难度”。
  
  4.5迁移适当加工理论
  TAP理论也被用于解释测试效应。根据TAP理论,某种学习策略或编码加工可能只能促进某种测 试类型,而对另一种不同信息类型或加工类型的测试不起作用,甚至起反作用。如,Roediger和Karpicke(2006)的研究发现测试时的提取练习比重复学习中的额外编码更能促进记忆保持力,研究者认为用TAP来解释即为:测试使被试在学习时进行提取加工,不断地对促进后来的提取所必需的相同技能进行练习。Thomas和McDaniel(2007)的实验发现如果让被试在学习时采用学习策略(对学科的核心概念进行深入理解,并弄清各概念之间的相互关系等),而在最后测试时进行选择题测试(对各独立知识点进行再认),则被试的测试成绩相对较差,这是因为加工策略虽然可能有利于长时记忆保持,但对于某些具体测试而言却作用甚微。
  但有些研究用TAP理论则无法解释。Kang等(2007)的研究采用两种测试形式(选择题测试和简答式测试)作为初始测试,考察被试在初始测试形式与最终测试形式相同和不同时的成绩,结果发现,相对于无测试组,两种测试形式都产生测试效应,简答式测试比选择题测试更好地促进了被试在最终测试(不论形式如何)上的成绩。
  综观上述有关测试效应的理论我们可以明确,测试效应不能被解释为是学习材料的额外接触,而测试中的提取过程,如精致化编码,需要努力的或更深层次的编码,以及更多的提取通道等应是对测试效应的更好的解释。此外,虽然迁移适当加工理论也能从一般意义上解释测试效应,但它无法解释一些研究结果。
  
  5 测试效应的研究展望
  
  已有研究从实验材料(如,无关词对或联想词对),测试任务的性质(如自由回忆、配对联想学习、再认),各次学习或测试之间的时间间隔(集中或分散),积极的测试效应及测试可能存在的消极影响等各角度对测试效应进行了探讨,同时提出了相应的理论解释,并通过实证研究不断对理论进行验证更新。现有的研究使我们认识到,测试不仅是一种衡量学习掌握程度的工具,它还是一种促进学习的手段,在某种条件下它与“学习”(编码)相比能更好地促进记忆的长期保持,采用自我测试策略学习应是一种高效率的学习方式。但要更深入地认识测试效应,当前的研究在一些问题上尚待进一步的回答和解释。
  
  5.1测试效应的发展研究
  测试效应是否具有发展特点?自我测试策略对不同年龄阶段或不同成绩水平个体是否有不同影响?已有研究大都以大学生为被试对测试效应进行探讨,尚缺乏对测试效应的年龄特点的研究,而只有弄清这些问题才能根据不同年龄特征指导教学实践。Komell和Son(2006)的研究发现,选择进行自我测试的成人被试在最终测试中的成绩显著高于选择再次学习的被试,而在儿童组被试中却未发现这一现象。这说明测试效应可能存在某些发展特点,或者说自我测试策略对不同年龄阶段的或不同学习水平(如学优生、学困生等)将可能产生不同的作用。
  
  5.2具体的学习过程中的学习策略选择
  现有研究更为关注测试效应本身,而对于个体在具体学习过程中是如何做出学习选择的(反复学习或自我测试)研究较少,且已有观点也不尽一致。如,Jacoby等(1994)认为学生会因倾向于根据加工流畅性来衡量当前学习水平而选择可促进当前加工流畅性的策略,如集中学习或重复学习。但Komell和Son(2006)在他们的一项研究中却发现大学生被试中的70%,儿童被试中的83%都选择进行测试。考查这一问题对指导学生掌握科学的学习策略有重要意义。
  
  5.3测试效应的内在机制的研究
  现有理论对测试效应做了不同的解释,虽然Bjork等的必要难度理论为较多研究者接受,但它仍然需要进一步验证,如,它无法很好地解释再认任务中的测试效应。因此,有待完善理论以更深入地理解测试效应的机制。
  
  5.4关于最优化的自我测试策略
  测试效应的存在是确证的,但对于何种自我测试策略才是最优化的问题尚有争议,是扩展式还是等间隔式?是否依不同个体而不同?不同的自我测试策略促进学习的内在因素是什么?对这些问题的回答才能真正使学生掌握有效的策略实现高效率学习。

相关热词搜索:概述 效应 国外 国外关于测试效应的研究概述 抽样效应 时间效应

版权所有 蒲公英文摘 www.zhaoqt.net