紀錄的理由

註冊再現研究(Registered Replication Report,以下簡稱RRR)廣為世人注意,是2015年發表於科學期刊的Estimating the reproducibility of psychological science。實際上有多項RRR從2012年開始運作,2014年就有論文發表,例如In vestigating Variation inReplicability: A “Many Labs” Replication Project。心理科學協會(Association for Psychological Science)在2014年開始徵求跨實驗室合作的RRR項目,完成的研究刊登於協會發行的專業期刊Perspectives on Psychological Science。從第一項RRR成案開始,協會公開RRR近況網頁,讓各界可以追蹤每件RRR項目的近況與結果。這項紀錄撰寫於2016年七月下旬至九月上旬,這段期間網頁已登錄8件項目,其中三件已經結案並發表論文,四件已結案尚在撰寫報告(其中兩件在2016年8月被正式接受),最新一件正在徵求合作團隊。已正式發表的三件只有一件能成功再現原始研究的部分結果,令人好奇還未正發表的其他五件結果會是如何?

奠基研究(Capstone Research)

在特定領域中有高引用數的原創性研究,引用該研究的研究直接或概念性重現原創性研究的方法與發現,逐漸形成正面支持這項原創性研究論點的發表鏈。這項原創性研究在主觀或客觀來看,吸引許多研究者嘗試確認研究結果,或探索研究結果啟發的新問題。

比起一次性再現多項研究的Estimating the reproducibility of psychological science,心理科學協會支持的RRR項目是針對一項或數項奠基研究(capstone research),招募實驗室或個人依照同一份計劃協議(protocol)同時進行獨立研究。協議內容是收集與分析資料的標準化程序:含刺激材料、施測軟硬體設置、招募參與者的人數與條件、資料處理及分析的流程、研究過程的紀錄格式、以及最後獨立報告的撰寫格式。發起RRR項目的總主持人會延請原始研究的主要發表者檢視計劃協議,待原始研究者同意協議細節之後,才會正式招募有意參與的團隊。所有RRR項目可以看成各方有志一同的研究者,針對學界有共識但存在爭議的奠基研究,進行炮口一致的集火射擊,檢驗這份研究能否經得起再現性考驗。
參與一項公開招募的RRR項目簡要流程是:一項計劃協議經APS同意開始進行之後,有意參加的研究者先閱讀首先公開的計劃協議,確定自已的團隊有能力執行,依指定格式填寫計畫書,並於Perspectives on Psychological Science的投稿網站提交,由項目總主持人審核研究者的團隊可否參加。研究者所在地如果有研究倫理審查的需要,可將此計畫書逕行送合格的IRB審核。如果研究者有合適的補助管道,也能自行爭取經費。

我在此彙整介紹現已公開的RRR項目,以及各方面的意見迴響。

Schooler and Engstler-Schooler(1990):Verbal Overshadowing Effect已完成。己發表。

先給原始研究一個中文稱呼「口語過度跟隨」。這項記憶實驗請參與者在實驗室裡觀賞一支虛構的銀行搶案錄影片段,稍後指認在影片裡犯下搶劫的嫌疑人。在看完影片到指認犯人之間,有的參與者要口頭說明犯人的特徵,有的參與者進行無相關的作業,例如完成一項字謎遊戲。原始研究發現詳細說明特徵的參與者,平均指認正確率比進行無關作業的參與者低25%。因為是中途口語報告造成的回憶正確率下降,故得此名。

直接再現(direct replication)

其它實驗室按照原始研究的方法細節,於不同地點時間完整照表操課收集資料,檢視能否再現原始研究的發現。這種再現模式在有規模的實驗室之間經常發生,一篇緊接著原創性研究出現的研究論文,首先會嘗試直接再現原始研究的發現。不過最理想的直接再現研究並不存在,即使是在曾進行原創研究的地點,以相同的設備進行,能招募的參與者已經不同於原始研究。有共識的直接再現模式是由原始研究者提供研究材料,甚至資料分析程序,讓其它研究者在不同地點以最逼近原始條件的空間設備進行再現。或者諮詢原始研究者的意見,在許可範圍內變更部分研究細節,APS公開的RRR項目皆屬稍做變動的直接再現。

Schooler與Engstler-Schooler的原始研究之後有許多研究報告表示無法再現原始研究的成果,這個項目針對原始研究的第一項與第四項實驗,進行研究程序稍做變動的直接再現(direct replication)。選擇這兩項實驗的原因是第一項的程序比第四項緊湊,第一項的參與者完成中途作業馬上指認犯人,第四項有延宕20分鍾,原始研究結果顯示兩項實驗都有顯著的指認正確率差異。
彙整所有參與再現的實驗團隊結果,第一項的平均差異只有4%,第四項的平均差異為16%。這項RRR報告的結論肯定有口語過度跟隨效果,但是程序延宕的影響需要被謹慎評估。這是至今為止經APS RRR認證的認知心理學實驗結果,其後的單項研究RRR都是社會心理學領域的研究,也是目前唯一一項再現結果爭議較小的項目。

Hart & Albarracín (2011):Linguistic Cues and Firing Guns已完成。己發表。

用比較聳動的說法描述這項RRR的原始研究:「動詞時態會控制法庭的判決」。原始研究符合西方社會心理學的規格,運用三種設計各異的實驗檢驗同一個假設:使用完成式的文字(例如He pulled the gun)描述被告的犯罪過程,會比使用非完成式的文字(例如He was pulling the gun),更容易讓法官或陪審團員相信被告有充分的犯罪意圖。這項RRR是直接再現原始研究的第三項實驗,因為唯一操作的獨變項是判例中的動詞是完成式或非完成式,程序是參與者對一椿判例裡的被告有無槍殺被害都的意圖,填寫三種量表表達自已的看法。三種量表分別請參與者評估被告知曉個人行為過程的程度,做出行為的意圖強烈度,對犯案結果的覺知度。看過完成式判例的參與者在三種量表給的評分,都顯著高於看過非完式判例的參與者給的評分。
這項RRR的參與團隊運用紙筆問卷施測及網路閱卷施測,一面倒地顯示未發現如同原始研究的顯著結果。總主持人之一Rolf Zwaan在論文正式發表時,於個人部落格有發表一篇介紹這項RRR來龍去脈的文章。兩個月後,原始研究者Hart於Perspective on Psychological Science發表評論,認為這項RRR之所以沒有實驗室能成功再現,是因為原始研究招募的採與者都是偏保守立場的學生(以2016年美國總統大選情勢比喻,都是共和黨候選人Donald Trump的鐵粉),參與RRR的實驗室招募的參與者來自四面八方,各種立場都有,因此「稀釋」原始研究發現的效應。這篇評論刊登時,Zwaan在部落格以一個問題回應Hart的評論:原始研究根本沒提過參與者的政治立場?
這項RRR雖然是針對一篇較新的社會心理學研究,但是理論基礎來自語言理解的認知心理學研究,因此原始研究的想法與發現都有原創價值。原始研究者想要捍衛其研究結果有其情感基礎,但是科學訓練讓所有研究者依循一種沙漏模型表達研究內容,也就是理論->假設->方法->結果->討論。這項RRR揭露原始研究的方法不如研究者所宣稱有效,可說是一具破碎的沙漏。若從科學知識進步的角度來看,RRR的反面證據讓有爭議的研究有個較清楚的處理方向(雖然大多數還是吵架),檢查最初的研究是否如原始研究者宣稱,是一具能產出可再現結果的沙漏。

表達科學研究內容的沙漏模型。By Tom Toyosaki - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=39687200
表達科學研究內容的沙漏模型。By Tom Toyosaki - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=39687200

Sripada et al. (2014):Ego Depletion已完成。己發表。

「自我耗損」是已經出版的APS的RRR項目中,知名度較高的課題。因為Roy Baumeister的原始研究不只在社會心理學界開枝散葉,其中一支成為正向心理學的重要課題,也已經透過數本暢銷書讓大眾認識,特別是談「意志力」的書藉。原始研究是請參與者到實驗室裡參加一項解題測試,只是實驗從測試前就開始,參與者被隨機分派到兩種測試前清況之一:面前有小餅乾卻只能吃紅蘿蔔;面前有小餅乾可以拿來吃。測試題目是無人能解的難題,測量項目是參與者放棄解題的時間,結果顯示不能吃小餅乾的參與者,顯著比能吃小餅乾的參與者提早放棄作答。這項發現支持Roy Baumeister的假設:意志力是一種認知資源,過度運用之後需要足夠時間恢復,否則會影響個人認知表現。

概念性再現(conceptual replication)

原始研究的關鍵操作,以假設條件可容許,但是與原始研究相異的方式設置,在其它控制變項接近原始研究進行的再現研究。例如自我耗損實驗有其它學者使用其它物品,例如檸檬汁,或可以耗損意志力的其它方法,例如這項RRR使用的挑字母作業,能得到相同效應的結果。概念性再現通常用來測試假說的通用性,也有許多學者認為這是改善實驗研究的外在效度,最佳的方案之一。

不過心理學界對於原始研究以及正面支持的概念性再現(conceptual replication),一直存在懷疑及批判之聲。這些批評在這項RRR的總主持人Hagger與Chatzisarantis發覺出版偏誤(publication bias)可能造成各式自我耗損效應被高估(參考Everthing is Crumbling),因此提案這項RRR,並邀請包括Roy Baumeister在內的三位研究者審核計畫協議。這項RRR的目標是再現Sripada等人於2014年發表的注意力耗損作業,這項作業的操作是把Roy Baumeister的小餅乾換成在電腦螢幕執行的挑字母作業(簡介參考果殼網的翻譯),Sripada的原始發現是作業難度起高,後續作業表現越差,與其它自我耗損研究發現一致。

出版偏誤(publication bias)

當一個研究主題的原創研究,與緊接著的再現研究都普遍支持原創研究的發現。再之後的研究如果有與原創研究不一致的發現,很不容易獲得接受發表的機會。結構性因素是原創研究的發表者與支持者,很容易成為相關論文的同儕審查者。近年許多實驗科學領域的原創研究案例因為樣本數少,統計考驗力偏低,有學者如Ioannidis(2005)以實際資料配合數據模擬,估計一門實驗科學的發展規模隨論文數擴增,難以再現的原創及概念性再現研究增加幅度。出版偏誤因此被視為不利一門主題研究健康發展的因素。

然而經過23個獨立實驗室的直接再現,沒有一間獲得與Sripada同樣顯著的結果。Roy Baumeister的初期反應與Hart類似,他的論點是這個項目的總主持人只採納他建議的各種作業之中,最容易重製的電腦實驗版。不過Roy Baumeister的回應更有道理:Sripada的實驗只是眾多自我耗損作業的一種,不代表所有自我耗損作業都不能再現。也就是說一個沙漏品質有問題,不是所有沙漏都有問題。著名科學懷疑論部落客neuroskeptic特別標記Roy Baumeister回應之中的宣言:支持自我耗損的研究者們將推出以早期發表的作業為主的RRR項目。APS的RRR網頁何時的更新會新增這一條?或者這群研究者會另外尋找其它執行RRR的平台?甚至直接開闢一個新平台?後續情勢會如何影響註冊研究的發展值得觀注。

Many Labs 2: Investigating Variation in Replicability Across Sample and Setting

不只是心理科學,任何實驗科學都會發現這樣的例子:甲教授的實驗室發現A效果確實存在,乙教授採用極為接近甲教授實驗室的條件,卻沒有發現A效果。是什麼導致同一項實驗在兩個實驗室有完全不同的結果?樣本來源?實驗環境設置?還是取樣誤差?這個是統計學者與實驗科學家一直在探討的老問題,對於再現研究來說,如果並未發現如同原始研究一致的結果,卻沒有提出樣本或設置造成的偏誤評估,很難說服原始研究發現的支持者接受再現研究的結論,就像Estimating the reproducibility of psychological science的每項研究只有一個實驗室負責,可能因為樣本與設置已不同於原始研究,而導致不同的發現。

Many Lab Project 13項再現研究結果
Many Lab Project 13項再現研究結果

這個項目的前身Many Lab Project以研究的奠基程度挑選13項社會心理學研究,每項經過36個實驗室的直接再現,發現再現研究得到的關鍵效果量,與樣本及設置的變異並不大。然而Many Lab發起的目的裡,並未有系統檢測樣本及設置的變異,13項再現研究的資料,只能推論使用促發程序的社會心理學研究。Many Lab 2的發起小組首先海選100多件認知與社會心理學研究,候選的研究關鍵效果在原始研究目的之中,就有預測樣本或實驗設置造成的差異。再經由進一步投票決定28件研究,並分成兩群分別是13項與15項的兩套專案串(slate),參與的實驗室要再現至少其中一串的每項實驗。這次專案包含多項道德認知的研究,包括已在2010年因研究造假案而辭去哈佛大學教授職位的Mark Hauser,於2007年發表的語言認與與道德認知研究,他的道德認知研究被放在15項專案串。此外,在Many Lab Project大獲全勝的己故學者Tversky,他的研究有框架效應與相似性效應的兩項研究入選。
這項專案的資料收集已在2014年結束之前完成,不過報告至紀錄的時候尚未傳出已被接收的消息。但是從已公開的報表,可知第一套13項專案串有70個實驗室參與,其中有當時在台灣師範大學任教的張仁和老師領導的團隊,第二套15項專案串有61個實驗室參與。從報表的統計圖推測,Mark Hauser的語言認知研究應該有成功再現(Hauser.1),但是道德認知的研究有無成功再現需要等待團隊的判讀(Hauser.4)。Tversky的框架效應再現結果並未出現在這張報表裡,原因有待報告出爐,相似性效應的分析結果分散在四張統計圖,一半有明顯效果一半則無,如果要了解這些結果的意義需要參照原始論文,或等待Many Labs 2的最終報告。

Strack et al. (1988): Facial Feedback Hypothesis已完成。發表中。

我私自認為這項RRR的公開資料可以直接運用於心理學教學與研究法實作。「臉部肌肉回饋假說」的想法始於Charles Darwin有關人類與動物情緒表達的報告,他觀察到人類與動物都有運動意識可控制的骨胳肌,表達內在情緒的能力,也可以抑制情緒表達,因此猜想控制表達情緒的骨骼肌可能會影響內在情緒。之後美國心理學家William James在他的重要著作The Principles of Psychology,主張身體肌肉的變化是引發情緒的重要刺激。從此之後,心理學家的任務是建立可檢驗Willam James主張的實驗方法。到了1988年Strack, Martin, 與Stepper三人於Journal of Personality and Social Psychology發表的方法,是第一個能在過程維持參與者的笑肌(Risorius)運動模式,並測量參與者快樂感受的實驗。原始研究在維持參與者的笑肌運動模式時,測量參與者觀賞卡通影片之後,評估卡通的歡樂程度,做為臉部表情能導致情緒的直接證據。除了控制組是用非慣用手全程作答,另外兩個實驗組:嘴唇組牙齒組是按以下照片的方式,參與者全程用嘴巴含住原子筆作答:

嘴唇組:嘴唇含筆,不可用牙齒咬
嘴唇組:嘴唇含筆,不可用牙齒咬
牙齒組:牙齒含筆,不可碰觸嘴唇
牙齒組:牙齒含筆,不可碰觸嘴唇

以上兩張圖節錄自這項RRR公開的嘴唇組示範投影片牙齒組示範投影片,很明顯牙齒組自然地做出微笑表情。Strack三人的原始結果顯示牙齒組觀賞影片後給的評分,顯著高於嘴唇組。這套實驗方法被廣泛運用在許多情緒感受與表達的研究,雖然後來的多數研究也有類似發現,但是都未完全依照原始研究的細節設計,特別是含住原子筆的方式,以及使用其它反應設備作答等。所以「臉部肌肉回饋假說」類似「自我耗損」的狀況:原始研究之後出現很多概念性再現,但是最初的發現從未經過直接再現的考驗。
因為要完整再現原始實驗,每個參與實驗室都要有獨立空間,讓個別參與者以紙筆進行實驗,所以公開的計劃協議與實驗材料相當完整,我也從寫作這項紀錄更新以前對此研究的錯誤認識。
2016年8月中旬,這項RRR的報告已被正式接受,將與Strack的回應同時出版。16個橫跨歐美的實驗室再現結果,經整合分析之後,發現牙齒組與嘴唇組的差異只有0.03,遠低於原始研究的0.82,因此團隊結論這項原始研究無法直接再現。Strack的回應提出四點造成再現失敗的可能因素,都有值得思考之處:(1)這項實驗在許多大學的基礎心理學課程中,都會向學生介紹,參與這項RRR的多數實驗室,是從參與者庫招募正在修課的學生。計劃協議有設定事先知道此實驗內容的參與者,參與資料不能列入分析,最後總計有24%的參與者資料因此被排除,究竟參與者的先備知識對再現實驗結果的影響有多大,還需要更深入的分析。(2)讓參與者評分的卡通影片是1988年的原始研究使用的同系列影片,如此雖然符合直接再現的要旨,但是現在的大學生與三十年前的大學生笑點是否相同?(3)與原始研究不同之處是這項RRR使用數位相機全程錄影,讓參與者自覺維持含筆的姿勢,但是如此是否反而讓參與者有意識維持臉部肌肉的動作,降低無意識的影響?(4)通常有出版偏誤(publication bias)或人為逼出顯著結果(p-hacking)嫌疑的系列研究,有關鍵效果量與樣本數呈現負相關的特徵。也就是說樣本數越少,效果越明顯的研究越容易被接受出版。這項RRR的16個獨立再現結果,卻呈現相反的正相關,如此結果會不會是一種逆出版偏誤:不顯著的結果才會受到RRR的青睞?

人為逼出顯著結果(p-hacking)

在完成資料收集,進行資料分析的過程中,會發現即使已依慣例排除或轉換極端值,依然存在一筆資料導致分析後的結果不如預期顯著。有研究者會改用較低的顯著水準,報告結果符合預期。有研究者會剔除不利的資料,以達到符合預期的分析結果。現在歐美心理學界更關注一種製造顯著結果的模式,一個實驗室內多次執行一項實驗,挑出一次符合預期的顯著結果,再以此結果寫成論文。這種行為又稱為挑賣相好的(cherry picking)。
這些行為都屬於人為逼出顯著結果,而根本原因有研究者對統計方法的誤解與誤用,以及需要發表論文的壓力。這類行為還稱不上學術造假,因為資料皆是按計劃收集得來且未經變造。人為逼出顯著結果對研究再現性的傷害,來自原始研究者不願意公開資料分析的程序,導致其它研究者難以再現卻又找不到真正原因。現行註冊研究流程設計,就是要讓研究者承擔公開分析資料程序的責任,也讓期刊審查者願意接受不如預期的分析結果。

Finkel et al. (2002): Power of Commitment已完成。發表中。

親密關係如何維持是社會心理學中最引人感興趣,也吸引心理學家使用各種已知的研究方法探討的課題。其中一個主題是伴侶之間若有一人背叛對方,被背叛者會選擇原諒的主要因素是什麼,McCullough等人在1998年整理至當時為止的研究,已知會影響被背叛的一方願意原諒伴侶的諸項因素,為後來的學者建立某些因素與原諒行為的因果關係指出導路,其中一項最可能有直接因果關係的因素是「承諾感」(commitment)。Finkel等人的這份研究使用促發程序,在經過設計的實驗情境誘導參與者與想像的伴侶,彼此之間存在高承諾感(high commitment)或低承諾感(low commitment),接著被詢問假想伴侶背叛自已的情境裡,會選擇好言相勸(voice)或忠心守候(lotalty)之類的正面原諒行為,還是主動離開(exit)或視而不見(neglect)之類的負面原諒行為。
由於這類研究文獻數量可觀,許多概念非長期接觸相關研究者能夠嘗握,光看計劃協議我無法準確掌握實驗操作與測量的意義。為了妥善說明研究內容,我請教了專門寫作親密行為的科普寫手海苔熊,學會使用「承諾感」這個詞彙,描述這項研究的獨變項操作。Finkel設計五道問題讓參與者自行想像寫作,被分派到高承諾感組的參與者得到的題目是「描述兩件與伴侶在一起時,日常生活最常做的事」,低承諾感組的參與者得到的題目是「描述兩件伴侶不在一起時,日常生活最常做的事」。完成各組的五道題目之後,所有參與者再對12種被伴侶背叛的假想情境,從代表四種原諒行為的選項,選出自已最有可能做出的行為。12種狀況的作答次數依選項統計,轉換為兩組會做出某項原諒行為的指標分數。Finkel等人發現高低承諾感兩組參與者之間行為在原諒的選擇表現沒有顯著差別,只在結束關係的選擇有明顯差異。由此發現開始,Finkel與他的同事致力建立伴侶之間的承諾感,如何決定原諒行為的因果關係模型。
兩位現任的加拿大心理學教授,Irene Cheung與Lorne Campbell,以及服務於柏克萊大學推動社會科學透明化中心(Initiative for Transparency in the Social Sciences, BITSS)的Etienne LeBel等三位社會心理學者,有鑑於Finkel等人的因果推論在社會心理學界存在許多爭議,例如Riek與Mania在2012年發表的整合性分析顯示,與原諒行為相關性最高的是當事人的同理心,承諾感與背叛者的歉意有顯著相關,並非直接影響原諒行為的因素。而且原始研究的結果並未有明確的直接再現結果,因此提出直接再現Finkel等人2002第一項實驗的RRR項目。除了參與者全程於電腦輸入作答,取代原始研究的紙筆作答,其它可控制的條件都逼近原始研究。下表合併呈現原始研究與參與這項RRR的16個實驗室的整合分析結果。

主動離開(Exit) 好言相勸(Voice) 忠心守候(Loyalty) 視而不見(Neglect)
低承諾感
Finkel 2002
2.51 4.95 3.80 3.92
高承諾感
Finkel 2002
1.85 5.39 4.10 3.50
組間差異
Finkel 2002
-.42* .17 .05 -.32*
RRR組間差異
平均值,95%信賴區間
-.06, [-.17, .05] .03,[-.08, .13] .00,[-.08, .09] -.06,[-.18, .07]

*代表組間差異的p值小於設定的顯著水準

簡而言之,原始研究沒有顯著組間差異的正面原諒行為,RRR同樣沒有顯著,但是原始研究有顯著組間差異的負面原諒行為,RRR的結果相當於沒有差異。原始研究者Eli Finkel對此結果的回應,則出現了至今為止僅見的君子風度。我引述回應結論部分的一句話結束這項紀錄。
Consequently, I will no longer cite that study as providing causal evidence for the effect of commitment on forgiveness, and I discourage others from doing so.

Rand et al. (2012): Spontaneous Giving and Calculated Greed

要了解這項RRR要先認識公共財賽局(public goods game)。最著名的實驗方法由經濟學者Fehr與Gächter提出,參與者從一開始擁有相同資產,每回合開始都有捐出部分資產以增加分紅,與不捐獻任何資產兩種選項,在不同條件之下的十回合賽局中,紀錄參與者願意捐獻的資產數目。一回合中所有參與者,能獲得的分紅由四項參數決定:捐獻資產的增加倍數、捐獻資產的人數、個別捐獻的資產數值、以及該回合所有參與人數。前三項參數的乘積除以所有參與人數,就是所有參與者在該回合能獲得的分紅。例如有三十位參與者在一開始各自拿到100塊資產,第一回合有六位捐出全部100塊資產,這回合捐獻資產的增加倍數是5,因此回合結束所有參與者拿到1000塊分紅。此時6位有100塊資產與24位有200塊資產的參與者要在即將開始的第二回合,決定要不要捐獻?以及捐獻多少?
實驗經濟學的重點是觀察不同情勢之下,參與者想堅持做一個理性的經濟決策者:不捐獻任何一毛錢;還是做合作的投資者:評估情勢捐出自認合理的資產額度。心理學家則想了解人類在此情況下,什麼條件造成個人願意合作的動機?因此Rand等人(2012)採用一回合制公共財賽局(one shot public goods game),依照決策時間越少人類越依賴直覺做決策的假設,操作決策時間條件:限時之內做決定(time pressure)與限時之後做決定(forced delay),預測必須在限時之內做決定的多數參與者,捐獻的資產數值會顯著高於限時之後做決定的參與者。根據Rand等人的論文報告,在線上實驗平台Amazon Mechanical Turk與能容納多人同時施測的電腦教室之中,都發現符合預期的實驗結果。
然而在2012年之後,Rand的團隊與其它研究者在Amazon Mechanical Turk直接再現數次相同實驗,都發現組間差異逐漸縮小至無差異。可能原因是有在Amazon Mechanical Turk註冊的參與者,大多數越來越熟悉這套線上平台,任何實驗條件操作對參與者來說影響有限。實驗室實驗有改變條件的概念性再現,但尚未有直接再現。這項RRR收集的資料是來自Amazon Mechanical Turk,與參與實驗室在所屬機構的電腦教室進行。Amazon Mechanical Turk部分會區分註冊參與者的「資深程度」。
參與這項專案的22個實驗室在2016年五月結束資料收集,寫成紀錄的時候整體資料尚在分析中。在將來報告出爐時,值得關注的是Amazon Mechanical Turk再現結果與實驗室再現結果的比較,因為除了臉部回饋假設,紀錄於此的每項RRR,都有透過Amazon Mechanical Turk進行再現研究。如果這項專案能發現參與者資深程度對實驗表現的影響,對於要再評估已出版的RRR資料,以及未來的RRR運用線上實驗平台進行再現研究,要如何評估測量限制等,應能提供可靠的參考條件。

Dijksterhuis & van Knippenberg (1998): Foundation of Unconscious Social Cognition2016/8/28募集完成

「想像自已是貝多芬,就能考高分;想像自已是笨蛋,只能考鴨蛋」。這是模倣媒體記者如果讀過這項原始研究,應該會下的新聞標題。這項專案來自原始研究作者Ap Dijksterhuis在1998年於Journal of Personality and Social Psychology發表的研究,他與合作者設計四個實驗,讓參與者先做一段想像是某種典型人物的自我表述,當年的實驗採用大學教授(貝多芬)與足球流氓(笨蛋)做典型人物,參與者被隨機指派想像自已是其中一種身份。經過五分鐘的自我想像之後,進行20題益智問答。實驗的測量就是兩組參與者的益知問答答對率的差異。1998論文的第四個實驗,也就是這項RRR要再現的實驗,發現想像自已是大學教授的參與者平均答對率達56%,想像自已是足球流氓的參與者平均答對率有43%,兩組相差13%,並且達到統計顯著水準。然而Dijksterhuis後來自已嘗試重現,兩組差異不到3%,這項發現至今從未發表。
這項RRR與之前的RRR最大不同之處,是由原始研究者主動提出,而非其它學者邀請Dijksterhuis評估計劃協議而成案。從計劃協議透露的背景資訊,Dijksterhuis有鑑於自已無法再現自已研究的經驗,以及這幾年心理學界對促發實驗可再現性的質疑與案例接踵出現(參考拙作啟動你對促發實驗的認識),自已向APS提案,邀請全世界想挑戰這項實驗可再現性的心理學者。除了將1998年的另一個獨變項改成參與者性別,變動益智問答題目與實驗程序控制軟體,其餘條件都與1998年的設定相同。此次實驗也歡迎不同語言的心理學實驗室一起參與,我認為這是觀察RRR的概念在這段時間已經散佈多廣的一個機會。與這項實驗類似的促發實驗,並且爭議頗多的原始研究者(拙作中有點名),會不會受到激勵而接受挑戰?