原著封面,取自Amazon.com
原著封面,取自Amazon.com

物理學家理查.費曼(Richard Feyman)於1974年加州理工學院的畢業典禮致辭,有以下兩段內容:

大戰期間在南太平洋有一些土人,看到飛機降落在地面,卸下來一包包的好東西,其中一些是送給他們的。往後他們仍然希望能發生同樣的事,於是他們在同樣的地點鋪飛機跑道,兩旁還點上了火,蓋了間小茅屋,派人坐在那裡,頭上綁了兩塊木頭(假裝是耳機)、插了根竹子(假裝是天線),以為這就等於控制塔裡的領航員了──然後他們等待、等待飛機降落。他們被稱為草包族,他們每件事都做對了、一切都十分神似,看來跟戰時沒什麼兩樣;但這行不通:飛機始終沒有降落下來。這是為什麼我叫這類東西為「草包族科學」,因為它們完全學足了科學研究的外表,一切都十分神似,但是事實上它們缺乏了最重要的部分──因為飛機始終沒有降落下來。

她很喜歡這個新構想,跑去跟教授說;但教授的回答是:「不,你不能那樣做,因為那個實驗已經有人做過,你在浪費時間。」這大約是一九四七年的事,其後那好像變成心理學的一般通則了:大家都不重複別人的實驗,而單純地改變實驗條件看結果。

這段講稿後來被收錄於費曼的回憶錄「別鬧了,費曼先生」(Surely You’re Joking Mr. Feynman:Adventures of a Curious Character),也是諺語「草包族科學」(Cargo Cult Scinece)的起源。英國卡迪夫大學心理學者克里斯.錢伯斯(Chris Chambers)在個人新書「心理學的七宗罪」,引用這兩個段落描述自己對現代心理學現況及未來的擔心:如果今天的心理學家不真誠面對與解決知識生產模式裡存在的問題,今天的心理學知識會變成草包族科學的真實教訓~總是有正面結果的報告,卻無法確認正面結果的正確性。

費曼遇到的狀況到了21世紀不但沒有改變,2011年還達到了高峰:造假太美好的心理學研究案例在這一年先後現世,促成錢伯斯寫這本書做為紀錄。書中歸納的七宗罪體現經年累月累積問題,每一章標題都是理解問題的線索,閱讀整本書之後,我認為各種問題出於兩個成因,前三項罪體現直接導致的問題,後四項體現助長問題嚴重性的相關因素。為了方便之後的解說,我先簡單摘要七宗罪所體現的問題:(1)偏好正面結果導致的偏誤;(2)不受拘束的檯面下研究操作;(3)高影響力但低信度的研究結果;(4)缺乏公開分享研究資料的科學社群文化;(5)造假的誘惑;(6)限制付費取用的第一手文獻;(7)充滿集點狂的世界。

成因1:過度追求概念性再現(Conceptual Replication)

我曾在之前的文章說明什麼是概念性再現,在此引述如下:

原始研究的關鍵操作,以假設條件可容許,但是與原始研究相異的方式設置,在其它控制變項接近原始研究進行的再現研究。例如自我耗損實驗有其它學者使用其它物品,例如檸檬汁,或可以耗損意志力的其它方法,例如這項RRR使用的挑字母作業,能得到相同效應的結果。概念性再現通常用來測試假說的通用性,也有許多學者認為這是改善實驗研究的外在效度,最佳的方案之一。

回首1947年費雪與心理學研究生的對話,再看自己一年之前寫的說明,讓我想到至少有七十年,每一代心理學家都被教育要避免重覆已經發表的研究,最單純的原因只是認為完整的重現已經發表的研究是浪費時間的事?克里斯引用研究數據證實心理學家過度追求概念性再現的風氣已有百年之久,這種風氣在以期刊引用因子評估影響力的今天,造成心理學家以為使用不同條件,重現發表在高引用數期刊的論文研究結果為成就捷徑。就像上述說明中的自我耗損實驗,出版的多數結果是經過有確認偏見(confirmation bias)的審查系統,而這樣的系統與需要讀者付費的論文出版集團是利益共同體。

其他可能助長過度追求概念性再現風氣的因素,是原創研究很難完整重現。原因可能是研究者沒有意願分享原始研究資料,或者研究結果其實是是蓄意造假的。後者在最近幾年有太多例子可說,前者則是研究者深受社群文化與行規潛移默化的結果。即使在講究開放的西方學術社群,幾項調查顯示不到一半的研究者願意向任何人分享完整的研究資料,即使美國心理學會的倫理守則載明研究者應無私地公開資料,永遠會有1001個不能分享資料的理由。

成因2:彈性無限制的研究操作

錢伯斯以隱藏的彈性稱呼研究者的待澄清研究操作(Questionable Research Practice, QRPs),更多探討這個課題的論文稱之為研究者的自由程度(Researcher Degree of Freedom)。就像2016年,荷蘭蒂爾堡大學心理學家約特.惠切特斯(Jelte Wicherts)帶領的團隊,把太過自由而導致的研究操作問題,整理成一分QRPs清單。範圍包括:主題的形成、研究的設計、資料的收集、資料的分析、與報告的撰寫。這份清單呼應克里斯在前三章描述的現象。有問題的研究操作並未違反任何已有共識的研究倫理,但是只要能獲得美好的結果,很少有研究者不會採取其中幾項操作。有些甚至已內化至心理學教育系統:像是分析資料時改變原始計畫裡,處理極端值的標準,是可接受的。導致養成過程就是增加研究者自由程度,或者削弱覺察有疑問操作的能力。

許多研究者開始注意QRPs引起的問題,是讀過統計學者約翰.伊歐埃迪斯(John Ioannidis)於2005年發表,討論醫學與生命科學充斥太多偽陽性結果的論文。他提出估計一系列報告陽性結果的研究,存在偽陽性結果比率的方法。這套方法綜合假設為真的事前機率(prior probability)、顯著水準、統計考驗力、與人為逼出陽性結果的比例(p-hacking),估計存在真陽性結果比率的陽性預測值(positive preditive value),也是QRPs嚴重度的估計值。

使用這個網頁,你可以自行調整四項參數,了解偽陽性結果增加的條件。伊歐埃迪斯指出,如果一系列研究報告都是陽性結果,而且真陽性結果比率要高達90%以上的話,假設為真的事前機率要達80%以上,統計考驗力也要達90%。另一方面,一套假設為真的機率只有一半的研究系列,統計考驗力僅有33%時,如果研究者都很誠實不做有疑問研究操作,報告研究結果是陽性的比率不到20%,其中真陽性結果的比率將近90%;但是,若大部份的研究結果是QRPs導致,例如70%的研究有QRPs,陽性結果的報告比率會超過70%,然而其中真陽性結果只有一半。

伊歐埃迪斯論文的預設讀者是醫學與生命科學領域的研究者,但是先被打動的讀者群是社會科學的學者–或者更精確的說,在2011年覺醒的心理學家們。因為多數心理學領域的假設為真之事前機率約50%,也就是以看待隨機事件的立場,期待假設得到研究結果支持。如果多數呈現陽性結果的心理學研究是真陽性,心理學家不靠QRPs,只靠提高統計考驗力得到顯著結果,預計陽性結果與陰性結果的報告在所有文獻中應該各佔一半。實際情況卻如同自我耗損實驗系列一樣,可獲得發表的心理學論文超過90%是陽性結果。如此景況,只有用QRPs做研究才能達成。

當一個科學領域視QRPs為理所當然,直接導致檯面下的研究操作無限擴張,以及多數研究結果有高影響力但低信度的現象。如果有人無法抵抗造假的誘惑,隔一陣子就出現一則學術不端新聞是可預料的趨勢。與付費論文出版集團緊密相連的期刊編輯及審查者,只追求表面影響力但輕忽論文內容信度的教研機構管理,是助長QRPs的媒介。近幾年績效管理主義的盛行,只看表面可數字化的表現:如期刊引用因子、獲得的補助經費金額、掛名的論文數目及排序,更助長研究者為求在短期內累積績效,有意無意地在研究流程中採用QRPs。為了幫助有良心的心理學家擺脫QRPs,克里斯.錢伯斯提出及執行有同儕審查的註冊研究

第一本接受有同儕審查的註冊研究的期刊Cortex,由克里斯.錢伯斯公佈的審稿程序。論文品質以兩階段評審:收集資料之前的計畫書評審,主題的創新與研究信度並重;收集資料之後的論文評審,著重研究過程符合計畫書規畫的程度。取自錢伯思個人格落格
第一本接受有同儕審查的註冊研究的期刊Cortex,由克里斯.錢伯斯公佈的審稿程序。論文品質以兩階段評審:收集資料之前的計畫書評審,主題的創新與研究信度並重;收集資料之後的論文評審,著重研究過程符合計畫書規畫的程度。取自錢伯思個人格落格

終極解方:開放審查機制的註冊研究平台

錢伯斯以第一位負責註冊研究同儕審查的期刊編輯,在書中最後一章分享這幾年遇到的同行人士對此機制的迷思與誤解,如何回覆與破除的經驗,值得讀者親自閱讀。我認為這本書給希望透過註冊研究提昇自己與團隊研究能力的研究者,傳達一道明確的訊息:準備好擺脫過度的概念性再現與QRPs的研究者們,有審查機制的註冊研究是最適合的途徑

註冊研究的概念與操作能不能廣泛流傳,其實科學社群之內的生態,以及研究者所處的社會文化氛圍支持因素的多寡有關。如果週圍的因素,如期刊的編輯方針、經費補助政策、甚至是大眾對科學工作的期許,不能與註冊研究一起演進,很難改變一個科學領域的研究操作習性。因此錢伯思期許,現在正在幾本期刊運作的註冊研究審查機制,能演進為公開透明的科學知識生產與傳播體系。

我推想錢伯思期望兩階段的評審機制,能演進為研究計畫書的公開競價平台,與論文手稿的開放審查平台。透過平台提交計畫與論文的研究者面對的評審者,不只是由期刊編輯或經費提供者委派的專業人士,也是有興趣並有意願提供意見的同行或關注該科學域現況的相關人士,如科普寫作者。研究者的最新成果也可以即刻交付同行研究者,進行獨立的直接再現,考驗其知識品質。科普寫作者亦能隨時關注最新研究從發想到結案的過程,向有長期接收資訊的讀者報告,顯現科學研究者對社會的真正貢獻。

註冊研究審查機制的未來想像:專業人士與大眾皆可參與的開放科學雙平台。筆者自製。
註冊研究審查機制的未來想像:專業人士與大眾皆可參與的開放科學雙平台。筆者自製。

雖然距離理想的模式還有很長的路要走,開放平台的部分功能已有實際運作的例子。例如許多期刊已同意作者在投稿之後,審查結果未定之前,將預印本(preprint)公開於開放的網路平台,例如arXiv、OSF Preprints,讓有興趣的讀者瀏覽,並可經過網路社群傳播。開放科學中心正在建設的專案StudySwap,招募有穩定樣本來源的研究者加入,經由平台將最新成果的研究資料分享給其他研究者,在最短時間內重新執行相同的實驗與分析,確認研究成果的可再現性。

最後從理想拉回現實,在華文世界能否實現開放科學平台還在未定之數,因為有多少研究者能理解並願意實踐有審查機制的註冊研究,尚無法估計。如果讀過這本書,能讓更多研究者理解背後的問題,以及體認自己至今習以為常的QRPs,也許能引發出一股發展東方開放科學的力量。