心理科學知識的普及讓大眾認識許多有趣的最新研究,看到心理學家如何設計精巧的實驗揭發人類心智奇妙之處。現代心理學實驗獲得的資料–包括能在許多計算機平台執行的反應測試,到掃瞄參與者進行反應測試的神經活動紀錄儀器–都是經過統計分析確認效果達到一定程度才會獲得公開的機會。不過科學知識的產生也有結論錯誤的風險,如同曾介紹過的再現13項實驗結果的開放式研究。這次我想透過四篇文章,討論為何經過統計分析確認的研究結果不能直接成為可靠知識的原因?現代的心理學家有何辦法增進心理科學研究結果的可靠性?

這一篇我要討論心理科學研究的問題樣態。首先引用Francis (2012b)開頭舉例的兩種研究題材,請讀者根據描述先猜猜看,那一種題材是心理學教科書會收錄的教材案例?題材A有10筆已發表的實驗結果,其中有9筆通過統計顯著性考驗;題材B有19筆已發表的實驗結果,其中有10筆通過統計顯著性考驗。你認為A或B何者較會受教科書作者青睞,做為教育學生的材料?

以上描寫的題材A是Bem(2011)設計9套實驗,探討一般人具有預知未來的「超感能力」(psi),每個實驗都有至少100位大學生參與,並且統計分析都達到顯著。題材B是閱讀社會心理學必定得知的旁觀者效應(bystander effect) (NOTE: 旁觀者效應出自1964年發生於美國紐約市皇后區的一起兇殺案件,當時媒體報導一名女子在暗巷被歹徒追殺,周圍住戶有38人目擊過程,但無人出面救援或報警。這個案例的細節在2007年有學者提出質疑(Manning, Levine, & Collins, 2007),2009年德國慕尼黑的一座車站發生Dominik Brunner為了保護一群學童而被兩名青少年當眾攻擊至死的案件,案發當時在場的旅客為何沒有主動介入,再次使心理學家好奇到底有什麼原因讓人在他人需要幫助的時刻,願意挺身而出或故作沈默?),描述中的研究筆數摘要自Fischer等人(2011)的整合性分析回顧(meta-analysis)。有興趣的讀者想了解兩個題材的研究細節,可以自行去閱讀這兩篇論文。我要回到之前問讀者的問題:現在你知道題材A與題材B的真面目,你認為那一個題材是值得寫入教科書的材料?

如果你已經上完大學一年級或二年級的基礎統計,但是對一開始的問題舉棋不定,直到真面目揭曉覺得應該是旁觀者效應才有資格放入教科書,那麼你的思惟過程中已經有不要完全相信統計結果的念頭在轉動,只是為什麼顯著結果比例較多的題材,多數心理學家會抱持懷疑態度?這與透過期刊審查機制產生新知識的學科,會因為許多人為因素造成不顯著的實驗結果不易出版的「不見天日」偏誤(file drawer bias)。同一年Francis的另一篇論文(Francis, 2012a),運用模擬分析發現真實實驗結果原本不易顯著的研究,因為實際實驗結果卻顯著的研究比較容易發表,但是結果不顯著的研究較常被退稿,造成已出版的系列研究都是顯著結果的比例偏高,使得這系列研究成果帶來的知識打了折扣。如果你不是依靠直覺,而是因為認識「不見天日」偏誤的原因,判斷旁觀者效應是比「超感能力」更有資格增進心理科學發展的題材,那可以接著談談為何兩種題材的根本差異。

1956年,今天常用的推論統計方法–區間估計與假設檢定–開始為心理科學研究者接受與學習的時刻,荷蘭心理學家也是著名西洋棋手的Adrianus, de Groot以母語發表如何在心理科學研究謹慎運用推論統計方法的文章,這篇文章今年由幾位荷蘭學者翻譯為英文,重新刊登於專業心理學期刊Acta Psychologica(de Groot, 1956)。當時他已指出多數實驗結果達到統計顯著,並不代表這些結果能成為經得起檢驗的知識。能讓實驗結果轉換為具體的知識,是從研究問題被確立的那一刻開始。

de Groot判斷心理科學的研究能分為假設探索型(hypothesis exploratory)與假設檢驗型(hypothesis testing)兩種。以下圖為例說明,設定某種研究題材的獨變項(X)與依變項(Y)可能產生10,000種實驗結果,分佈以灰點表示。若你知道迴歸分析,會了解不論挑選那一個獨變項數值做為實驗條件,最有可能發現的結果會接近依變項的迴歸平均數,例如以獨變項的平均值10進行實驗,最有可能的依變項數值是15,代表這個研究題材要找到的最終目標 (NOTE: 所謂「迴歸至平均」是也。)。如果這個題材是剛開始有人進行研究,資料還不夠推測最有可能的迴歸關係,進行假設探索型的研究的目標就是儘可能嘗試多種獨變項條件,測量最有可能的結果是什麼?就像下圖的紅色實心點是模擬對11種獨變項條件進行實驗,得到的11種結果。如果這個題材的資料已經很充分,有理論或假設讓研究者能推測針對某種獨變項條件進行實驗,評估最有可能的結果,進行假設檢驗型的研究就是確認這套假設的預測是不是可靠。,如同下圖的藍色空心點,都是獨變項為10的結果。這個比較可以看出假設檢驗型研究的結論,最接近這個系列的最終目標:獨變項與依變項的總平均。

迴歸至平均
迴歸至平均

若你有時間有意願閱讀Bem(2011)的論文,會發現這篇論文報導的9套實驗,都是針對不同的「預知未來」定義與操作條件進行實驗;Fischer等人(2011)回顧的旁觀者效應研究文獻,是聚焦在有控制或操作「責任分散程度」的研究。顯然前者偏向假設探索型,後者偏向假設檢驗型,心理科學常見的爭議脈絡,大多是現在己知的資料讓這個領域的研究處於假設探索型,還是假設檢驗型的狀態。在後續三篇文章,我要談談區間估計與假設檢定兩種推論統計方法,如何在清楚的問題意識下運用?以及介紹現代心理科學超越兩種研究型態的嘗試方向。

讀完這一篇文章,你有沒有想要統計己經發佈在Pansci與果殼網的心理科學報導,是不是假設檢驗型的研究佔大宗呢?

參考文獻

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425. doi: 10.1037/a0021524

Fischer, P., Krueger, J. I., Greitemeyer, T., Vogrincic, C., Kastenmüller, A., Frey, D., … Kainbacher, M. (2011). The bystander-effect: A meta-analytic review on bystander intervention in dangerous and non-dangerous emergencies. Psychological Bulletin, 137(4), 517-537. doi: 10.1037/a0023304

Francis, G. (2012). The Psychology of Replication and Replication in Psychology. Perspectives on Psychological Science, 7(6), 585-594. doi: 10.1177/1745691612459520

Francis, G. (2012). Publication bias and the failure of replication in experimental psychology. Psychonomic Bulletin & Review, 19(6), 975-991. doi: 10.3758/s13423-012-0322-y

de Groot, A. D. (2014). The meaning of “significance” for different types of research [translated and annotated by Eric-Jan Wagenmakers, Denny Borsboom, Josine Verhagen, Rogier Kievit, Marjan Bakker, Angelique Cramer, Dora Matzke, Don Mellenbergh, and Han L. J. van der Maas]. Acta Psychologica, 148C, 188-194. doi: 10.1016/j.actpsy.2014.02.001

Manning, R., Levine, M., & Collins, A. (2007). The Kitty Genovese murder and the social psychology of helping: The parable of the 38 witnesses. American Psychologist, 62(6), 555-562. doi: 10.1037/0003-066X.62.6.555