閱讀筆記：Paul Meehl談心理學理論失效的十大主因

Sat, Dec 30, 2017 書報筆記

為何值得一讀

Daniël Lakens的提昇你的統計推論功力(Lakens 2016)有一講科學哲學，在講授內容與建議閱讀都提到已故美國臨床心理學者Paul Meehl於1990年發表於Psychological Reports的論文Why Summaries of Research on Psychological Theories are Often Uninterpretable(Meehl 1990)。完成課程中文化與舉辦註冊研究工作坊之後，我對中文心理學社群對心理學再現危機的體認不足有更深的認識。這段時間也抽空觀看Paul Meehl於1989年講授哲學心理學的課程錄影(Yonce 2017)，我發現他很早就了解今日許多歐美心理學者擔心的問題，還有提出解決的對策，有些對策呼應今天的開放科學主張。1990年的論文是Paul Meehl觀察心理學研究劣質化原因的總結，要學習他洞察問題的眼光，這篇論文與哲學心理學課程內容是最好的開始。

Paul Meehl其人

Paul Meehl最為人所知的貢獻是與同事Lee Cronbach（正是提出Cronbach’s α的心理學者），一起提出建構效度的觀念，以及操作方法：法則關聯(Nomological network)(Cronbach and Meehl 1955)。在哲學心理學的第5講，Paul Meehl親自說明建構效度來自科學哲學家Karl Popper的否證論形式邏輯推演。他的學術生涯持續進行的工作是把Popper的否證論，與其高徒Lakatos主張科學家研究應該保持的其他條件不變(ceteris paribus)，轉化為心理科學研究能實際運用的準則與操作方案。哲學心理學的第六講至第八講，Paul Meehl詳細解說Why Summaries of Research on Psychological Theories are Often Uninterpretable這篇論文的重要主張，留下他對當時多數心理學理論與研究結果經不起考驗的觀察與想法，以及他向未來的學者們提出的對策。

不牢靠理論的三大特徵

跨越1950至1980年代，Paul Meehl見識許多曾發表於期刊的新穎理論，因為研究結果無法被其他學者重現，幾年之後乏人問津的案例。他歸納經不牢靠的心理科學理論有三種特徵，第一是理論的命題通常不可計量，第二是理論的初期證據主要是相關性資料，第三是理論的成立標準不是可預測的參數。命題不可計量的理論只有提示研究的方向，沒有列舉能確證與否證理論命題的基本條件。以否證論的形式來說，這種理論不具備科學意義。理論命題能不能計量，是判斷理論好壞的基本條件。第二種與第三種特徵反映在科學社群實際的研究作為與態度，依賴相關性資料是因為關心的變項無法隨機，或者研究者認為必須接受未知誤差的存在；第三種是逕取某項非零的顯著測量結果，當做理論成立的證據。有三種特徵的研究報告所呈現的效果經常是數值龐大(sizeable)，正負不一致(opposed)，變異範圍廣(variable)，與真實效果無法估計(unknown)等特色。我為了方便理解，姑且借用棒球術語，稱呼這類研究報告叫四壞球(base on balls)。在棒球比賽裡，投手投出四壞球，打者就立刻保送上一壘。好比未被嚴謹檢驗的研究結果，因為從規劃實驗到論文評審的一系列粗糙操作，而成功發表。Paul Meehl指出因四壞球成功發表的研究結果，不是好理論的劣質證據，就是粉飾差勁理論的神奇結果。

理論-事實邏輯鏈

Paul Meehl歸納出十種導致四壞球的因素。為了描述十種因素的面貌與影響研究結果的模式，他使用Karl Popper持續改良的否證論形式邏輯，定義有意義的科學理論與有效研究結果的必要成份：

\[ T \cdot A_1\cdot A_2 \cdot C_p \cdot C_n \rightarrow ( O_1 \supset O_2) \]

從左至右，每項成份代表\(T\)：核心理論命題；\(A_1\),\(A_2\)：輔助理論命題，是核心理論命題的衍伸，命題數量不等，分別指涉有關的心理因素、測量條件等；\(C_p\)：其他條件不變(ceteris paribus)，也就是現在多數研究方法教科書稱呼的控制變項；\(C_n\)：研究操作條件，也就是獨變項；\(O_1\)與\(O_2\)：確證與否證核心理論命題的觀察結果，也就是依變項最可能呈現的兩種狀況。在缺乏核心理論命題的情況，Popper認為\(O_1\)與\(O_2\)的條件機率\(P(O_1|O_2)\)的設定應該越小，表示越不可能發生，Karl Popper以此說明好的科學理論是朝逼近真實(verisimilitude, truthlikeness)發展。從Paul Meehl的論文與授課，我發覺他一生追求將此概念化為可實際測量的方法，因此對機率與統計下了很深的功夫，不過我還未讀過其他論文，不清楚完成度有多少。而1990的論文裡，他明確表示四壞球研究通常是\(P(O_1|O_2)\)被高估，不管理論好壞，都有可能發生。

讓理論劣化的五大病因

脆弱的邏輯鏈(Loose derivation chain)：邏輯鏈的每個成份都有一個對應的機率，表示研究結果支持理論的成功率，與實驗條件有效的機率。如果每個成份都有0.8的成功機率，那麼獲得支持結論的正面結果，至少有\(0.8^5\)，也就是0.33。四壞球研究通常沒有認真預估每一個成份的成功機率，導致高估發現正面結果的機率。
不良輔助理論命題(Problematic auxiliary theories)：輔助理論因應測量器材等實際研究條件而設定。核心理論命題未完成或太過模糊，會運用輔助理論命題預測結果，容易造成研究者過度依賴工具。Paul Meehl以他親身經歷的心理測驗狂潮描述過度依賴工具造成的亂象，今天使用測量人類神經活動的儀器，研究人類行為與認知，也是如出一轍。
不良控制條件(Problematic ceteris paribus clause)：今天的研究者了解如果研究的效應牽涉參與者的個別差異，都會列舉任何可測得的個別差異因素，以相關分析確定與要測量的效應無關。不過依然有不良的實際案例，就是Dana Carney與Amy Cuddy於2010年合作發表的權力資勢效應研究(Carney, Cuddy, and Yap 2010)，現在已知這次研究紀錄的性別差異與權力資勢效應有高度相關(Coyne 2017)。
實驗者偏誤(Experimenter error and bias)：Paul Meehl所指是研究者在過程中並非蓄意造假的操作失誤，無論是1990或今天，大多是指經驗不足的助理或學生造成的錯誤。隨著開放資料的意識抬頭，現在更值得注意的實驗者偏誤，應該是待澄清的研究操作(Questionable Research Practices)(John, Loewenstein, and Prelec 2012, Wicherts et al. (2016))。
不適當的考驗力分析(Inadequate statistical power)：在Paul Meehl的著述裡，緊扣實際的科學研究過度高估\(P(O_1|O_2)\)。在Paul Meehl之後，許多研究指出從低考驗力條件產生的研究結果，偽陽率(false positive rate)越高(Ioannidis 2005, Simmons, Nelson, and Simonsohn (2011))。

粉飾壞理論的五種手法

不明高相關因素(Crud factor)：Paul Meehl所指是任何隨機抽樣或隨機分派都無法化解的高相關因素，這些因素會降低獲得顯著結果的門檻，提高偽陽率，在一次收集大量資料的教育調查研究經常看見。如Paul Meehl自己舉了1955年與同事一起進行的大規模高中生家庭環境調查，列舉的105個變項裡有101個彼此之間有顯著相關。如果拿這批資料再做進一步調查，很難排除這項變項的關聯性。對照2016年發生的fMRI再現危機(Neuroskeptic 2016)，很重要的原因是分析軟體的設計者低估這類因素造成的偏誤。這顯現如果研究者不保持洞察，大數據是包裝低品質研究的最佳手段。
前置研究(Pilot study)：許多研究者在正式實驗開始前都會做幾次前置研究，除了測試能否用預期的方法測得關注的效應，也調整操作與控制條件。Paul Meehl認為一次前置研究應看成一次獨立的研究紀錄，而非試誤性測試(trial-error)。即使不如正式實驗的結果明顯，也應該公開讓同行研究者了解，否則只是刻意遮掩。
投稿偏誤(Submission bias)：今天的研究者更熟悉另一個同義詞抽屜效應(file drawer effect)，不顯著的研究結果因此很難現世，讓許多其實無法重現的研究，得到過高的關注。近年最經典的案例是elderly priming(Bargh, Chen, and Burrows 1996)。
出版偏誤(Publication bias)：許多有興趣看這篇的讀者應該很熟悉這項手法。歡迎還不清楚的朋友看一下Daniël Lakens的提昇你的統計推論功力(Lakens 2016)最後一週課程，第二段視頻與相關文獻介紹。
不充分的效度資訊(Detached validation claim for psychometric instruments)：根據古典測驗理論設計的各式測驗，普遍存在高信度低效度的特性。Paul Meehl注意到有些測驗研究過度強調信度，效度的資訊則相對不充分。如果讀者不仔細探討，就會把高估實際的效度。這在依賴工具的研究裡，特別容易成為粉飾研究結果的手法。

Paul Meehl主張的對策

論文最後一部分，還有哲學心理學第八堂課，Paul Meehl給在學術知識流動過程扮演重要角色的各種人士一些建議。這些人包括第一線的實證與理論研究者，期刊編輯與評審人，還有學術界的新血：博士生。部落客Jamie Brandon在貼文中整理出幾個要點(Brandon 2016)，我再做一次整理，並加上我所知道的現況：

研究操作的現實議題
選擇研究題目，首先考慮能粗估效果量的理論。
設計實驗條件儘可能提高考驗力，並且在報告中呈現。
存在多種高度相關的變項，無法使用隨機化程序平衡時，請不要太相信手上能用的分析方法。

這些建議都是註冊研究提倡者在推動的實際作為。

學術文化
鼓勵發表或公開不太成功的前置研究紀錄。
避免研究者無所不用其極發表經不起考驗的研究結果，改善沒發表就滾蛋(publish-or-perish)的風氣是必要的。
引導不明高相關因素成為獨立的研究題目；期刊與經費補助者不該鼓勵理論陳義過高，但無有效實證方法的研究題目。

歐美各國已有政府主導的改善政策出現，有機構設立獎項鼓勵改善學術文化的人士，像如柏克萊大學的Initiative for Transparency in the Social Sciences (BITSS)。亞洲各國學術圈在2000年左右才開始出現Paul Meehl擔心的不良學術文化現象，目前正方興未艾。

專業科學家的養成教育
博士生應接受紮實的數學教育，了解分析方法的數學基礎，才能正確使用。

2011年之後，歐美大學出現許多決心念心理學博士班的新人以改善科學方法為職志，值得觀察。亞洲還未感受到這樣的新氣象

參考文獻

Bargh, John A., Mark Chen, and Lara Burrows. 1996. “Automaticity of Social Behavior: Direct Effects of Trait Construct and Stereotype Activation on Action.” Journal of Personality and Social Psychology 71 (2): 230–44. doi:10.1037/0022-3514.71.2.230.

Brandon, Jamie. 2016. “Notes on ’Everything Is Fucked’.” Scattered-Thoughts. http://scattered-thoughts.net/blog/2016/12/09/notes-on-everything-is-fucked/.

Carney, Dana R., Amy J.C. Cuddy, and Andy J. Yap. 2010. “Power Posing: Brief Nonverbal Displays Affect Neuroendocrine Levels and Risk Tolerance.” Psychological Science 21 (10): 1363–8. doi:10.1177/0956797610383437.

Coyne, James C. 2017. “Amy Cuddy’s Paper Is Incoherent Regarding Male-Female Differences in ‘Power-Posing’.” Quick Thoughts. https://jcoynester.wordpress.com/2017/06/05/amy-cuddys-paper-is-incoherent-regarding-male-female-differences-in-power-posing/.

Cronbach, Lee J., and Paul E. Meehl. 1955. “Construct Validity in Psychological Tests.” Psychological Bulletin 52 (4): 281–302. doi:10.1037/h0040957.

Ioannidis, John P. A. 2005. “Why Most Published Research Findings Are False.” PLOS Med 2 (8): e124. doi:10.1371/journal.pmed.0020124.

John, Leslie K., George Loewenstein, and Drazen Prelec. 2012. “Measuring the Prevalence of Questionable Research Practices with Incentives for Truth Telling.” Psychological Science 23 (5): 524–32. doi:10.1177/0956797611430953.

Lakens, Daniël. 2016. “Improving Your Statistical Inferences.” Coursera. https://www.coursera.org/learn/statistical-inferences.

Meehl, Paul E. 1990. “Why Summaries of Research on Psychological Theories Are Often Uninterpretable.” Psychological Reports 66 (1): 195–244. doi:10.2466/pr0.1990.66.1.195.

Neuroskeptic. 2016. “False-Positive fMRI Hits the Mainstream.” Neuroskeptic. http://blogs.discovermagazine.com/neuroskeptic/2016/07/07/false-positive-fmri-mainstream/.

Simmons, Joseph P., Leif D. Nelson, and Uri Simonsohn. 2011. “False-Positive Psychology Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.” Psychological Science 22 (11): 1359–66. doi:10.1177/0956797611417632.

Wicherts, Jelte M., Coosje L. S. Veldkamp, Hilde E. M. Augusteijn, Marjan Bakker, Robbie C. M. Van Aert, and Marcel Van Assen. 2016. “Degrees of Freedom in Planning, Running, Analyzing, and Reporting Psychological Studies: A Checklist to Avoid P-Hacking.” Frontiers in Psychology 7. doi:10.3389/fpsyg.2016.01832.

Yonce, Leslie J. 2017. “Philosophical Psychology 1989 Paul Meehl.” University of Minnesota. http://meehl.umn.edu/recordings/philosophical-psychology-1989.

科學哲學科學精神開放科學