事件起因

2016年的九月底,最受注目的國際新聞是當屆美國總候選人首次電視辯論會,還有當年度搞笑諾貝爾獎陸續公佈,為十月初的諾貝爾獎公佈暖身。就在這段時間,有一份心理科學危機消息在歐美社會科學圈引起關注,在九月的最後一個星期引起許多討論。雖然這則事件的熱度被其它更重大的新聞消息蓋過,Retraction Watch轉述New York magazine的消息之後,一星期之內與事件有關的核心人士先後公開表態。

為何這個事件值得關心心理科學知識進展的讀者注意?要從9月25日晚上,目前任職UC Berkeley的Dana Carney,在個人網頁發表的公開信說起。Dana Carney是2010年發表於心理科學期刊(Pscyhological Science)的論文“Power posing brief nonverbal displays affect neuroendocrine levels and risk tolerance”共同作者之一。這篇論文為大眾所知,是另一位共同作者Amy Cubby於2012年在TED talk的演講,以這篇論文的研究結果向聽眾宣傳權力姿勢效應:改變身體語言能增加個人執行力。演講錄影的中文字幕版見下方影片:

這場演講錄影在英語世界至今已累積3千6百萬的瀏覽次數,youtube中文字幕版的瀏覽次數也逼近54萬人次。使用“權力姿勢(Power Posing)”輸入google搜尋,會發現許多介紹及推廣這項研究及觀點的中文資料,而且都是一面倒的肯定。其中有一篇刊登於泛科學的介紹文,有研究內容的詳細介紹,尚不清楚權力姿勢效應為何這麼轟動的讀者,建議先轉個彎去看這篇介紹文和Amy Cubby的演講,再回來看這場925事件:)

9月25日晚上,Dana Carney在公開信裡表示我不再相信權力姿勢效應是真的(…I do not believe that “power pose” effects are real.)。就在一年前,2010年的三位共同作者還在同一本期刊,發表回顧文章Review and summary of research on the embodied effects of expansive (vs. contractive) nonverbal displays.,捍衛2010年的研究成果,相信權力姿勢效應經得起原研究團隊與其它實驗室的考驗。為何一年之後,其中一位成員轉換立場,並且做出學術界罕見的認錯聲明?心理科學人士與大眾能從這次事件獲得什麼教訓?

2015年的隔洋交鋒

刊登Dana Carney三人第一份Power Posing研究成果的心理科學期刊,於2015年五月刊登一份由瑞士的學者Eva Ranehill等人主導的註冊再現研究(Registered Replication Research,參考我寫的介紹),在Dana Carney三人的原始研究設計中,Eva Ranehill等人增加原始研究沒有的權勢感受(feeling of power)自我評估,用意是確認擺姿勢會改變參與者的主觀自信,檢驗研究操作基本有效程度。這項評估在2010年之後,有部分後續研究採用,做為增加實驗信效度的措施,但是沒有研究採用與原始研究相同的操作條件與測量方式。
Eva Ranehill等人招募的參與者數目是Dana Carney三位的五倍(2010有42位;2015有200位),同樣測量參與者在擺指定姿勢兩分鐘之後的決策行為與荷爾蒙濃度變化。結果如同大部分註冊再現研究一樣,行為與荷爾蒙的變化都沒有顯示權力姿勢效應。Dana Carney三人也在這篇報告刊出時,彙整包括2010年原始研究在內的33份已發表研究,主張Eva Ranehill等人的再現研究,只是眾多顯示有效的研究之中,少數顯示無效的發現。看似合理且有效的防衛,為何一年之後的9月25日,Dana Carney的立場發生180度的轉變?

天外飛來P-Curve補刀

在U Penn任教的Uri Simonsohn與同事長期開發能評估某種主題的研究論文,存在出版偏誤p-hacking的方法。出版偏誤是只有統計結果顯著的實驗機會,會獲得較高的出版機會,或者才會被研究者被寫入論文。p-hacking是對已存在的資料,在分析程序中進行各式“拷問手段”,直到獲得一般同意小於.05的p值為止。如果讀者不懂什麼是p值,可先看這篇blog建立概念。如果想深入了解,現在Cosera已有視頻教學,但是建議讀者從第一堂課開始,請參考Improving your statistical inferences的課程主頁

在power posing的案例裡,宣稱有效的實驗結果,都是統計分析報表顯示不同姿勢在某種測量得到的差異,有至少小於.05的p值。如果研究者有時不能直接從原始資料得到小於.05的p值,可能會採用“拷問手段”調整資料,再跑一次分析程序,看看報表會不會出現小於.05的p值。包括我在內,在台灣成長的心理學學生,長久以來都在有意及無意的狀況下,接受“拷問手段”可行、至少是學術界能容許的觀念。

Uri Simonsohn在2014年發表的第一版P-Curve,提出一種可實作的方法學:如果一系列研究的有效結果都是因為出版偏誤p-hacking,才能得到顯著的報告,必定有很高比例的p值是在.05到.04之間。只要把一系列研究的p值排成次數分配,就能用統計檢定方法,讓有嫌疑的研究結果現形。借用這篇論文的第三張圖來說明,因為有嫌疑的研究多數p值偏高(.04 ~ .05),會累積如左圖的負偏態曲線(left-skewed curve)。如果效果的確存在,報告結果都是分析未做調整的資料,就會累積如右圖的正偏態曲線(right-skewed curve)。

Uri Simonsohn等人從Journal of Personality and Social Psychology選取有p-hacking嫌疑的20份研究(左圖)與無嫌疑的22份研究(右圖),繪製出的P Curve(藍色線條)。
Uri Simonsohn等人從Journal of Personality and Social Psychology選取有p-hacking嫌疑的20份研究(左圖)與無嫌疑的22份研究(右圖),繪製出的P Curve(藍色線條)。

上圖未顯示的另一種情況是實驗操作完全不會導致任何效果,面對這種情況的研究者如果從未拷問資料,分析報表出現顯著的p值,從大(接近.05)到小(等於或少於.01)的機會應該相等,如同上圖中的紅色虛線,這條紅色虛線稱為虛無效應。因此如果一系列研究顯示的有效結果,其實來自對虛無效應的重覆實驗,就會發現P-Curve和紅色虛線沒有差別,或者差別不顯著。

那麼Dana Carney三人所列出的33篇實驗結果,繪製成P-Curve呈現什麼模樣?

讓Dana Carney認輸的P-Curve

Uri Simonsohn與同事在2016年九月正式公佈已被接受的最新論文,以及P-Curve第四版。他們依訂出的步驟,整理Dana Carney三人舉出的研究論文之中的統計值,輸入繪製與分析P-Curve的R code,獲得與虛無效應無明顯差別的P-Curve。Uri Simonsohn將分析的資料公開於osf,並將R code轉換成可讓任何人輸入資料的網頁。讀者可從公開的excel檔案裡,找到擷取自33份研究的關鍵統計值。將”Main P-Curve”這欄之下的所有統計值選取複製,貼到p-curve app 4.05,就可以得到與Uri Simonsohn的最新論文相同的下圖:

分析Dana Carney三人列舉的33份研究,繪製權力姿勢效應的P-Curve(藍色線條)。
分析Dana Carney三人列舉的33份研究,繪製權力姿勢效應的P-Curve(藍色線條)。

這條P-Curve呈現扁平的W。圖上方欄位中的紅色虛線標示Null of no effect,下面的小字是這條P-Curve與虛無效應的比較分析結果,是這項比較分析的p值,遠大於.05的數值表示這條P-Curve與虛無效應相差無幾。也就是說2010年的原始研究與後續研究所發現的權力姿勢效應,都是不存在的。這也是Dana Carney的公開信裡首先提及,放棄2015年回顧論文立場的關鍵。

不過從好的方面來看,如果這條P-Curve是負偏態,又與虛無效應有顯著差別,就可以懷疑參與這33篇研究的團隊有集體造假(fabrication)的嫌疑。新聞熱度絕對上昇好幾倍,也許我不必出手寫這篇文章,就有華文媒體記者主動報導。這方面也透露P-Curve的限制,如果是僅有一篇報告的研究,除非有高手深入查案,外人無法得知是否經得起檢驗。

Amy Cuddy仍不放棄

Dana Carney的公開信發佈後五天,9月30日Amy Cuddy發表公開聲明表達個人看法。聲明的重點是Amy Cuddy認為雖然決策行為與荷爾蒙改變都沒有顯示真正的權力姿勢效應,但是改變身體姿勢的確對個人自信心的主觀評估有明顯的改變。雖然這份公開聲明裡沒有明白表示,我們可以理解Amy Cuddy試圖確立一種弱版本權力姿勢效應。如公開聲明中的其中一句話:

…the one that I would call “the power posing effect,” is simple: adopting expansive postures causes people to feel more powerful.

Amy Cuddy認為在2015年回顧的研究裡,其中八項納入自信心主觀評估的研究結果都支持她的主張,此外還有Eva Ranehill等人主導的註冊研究,都是呈現統計顯著的結果。這樣的聲明透露Amy Cuddy試圖提出一種權力姿勢能明顯影響個人內在感受,但是對外在行為與生理狀態影響微小的弱版本。在理論立場由強轉弱的修正,能不能被學術界及大眾接受是純粹概念的思辨。但是我們可以檢視支持弱版本主張的證據,因為Uri Simonsohn也把這九項研究的自信主觀評估統計值,列在同一份excel裡。將這些數值複製貼到p-curve app 4.05,可以得到下圖:

分析Amy Cuddy列舉的9份研究,繪製自信心主觀評估的P-Curve(藍色線條)。
分析Amy Cuddy列舉的9份研究,繪製自信心主觀評估的P-Curve(藍色線條)。

我們可以看到一條稍微昇起的正偏態P-Curve,但是與虛無效應的比較分析,只有比.05大一點點。多累積一些測量自信心主觀評估的權力姿勢效應研究,會不會變成絕非虛無效應的P-Cruve?這裡我不敢妄下斷言,但是擺姿勢會讓人有自信,有沒有必要靠這種科學研究來證實?是值得心理科學人士省思的重點。

至於大眾能學習的重點,我認為不是Amy Cubby的TED演講錄影何時會被下架,而是增進自己辨別這類看似有開創性的心理科學研究。10月1日Uri Simonsohn接受NPR的訪談,他向節目主持人提到如何看待這類看起來有實用價值的心理科學發現。他強調在一開始看起來有開創性的研究發現,其實只是意念(idea)與原型(prototype),距離實質的應用,還欠缺足夠的檢驗。Amy Cuddy的TED演講讓許多人以為她們的發現,是可以直接運用的成果。

我個人的解釋是如同今日有許多正在被研究的再生能源方案,有些方案例如太陽能已經有初具規模的應用成果,如果有某個企業號稱能打造完全以再生能源維持居住品質的城市,嚮往這種生活的人也許會願意投資,或成為首批住民。然而有一日這間企業被爆料在許多環節造假,只是運用看起來可運作的原型設施,做為行銷宣傳的材料。非專業的一般人士要如何保持辨別的眼光,需要從多方面的教育管道著手,寫作這篇文章正是一個方向。

初稿2016/10/6 12:59:58上線
一校2016/10/6 21:50:00完成
二校2016/10/11 22:33:00完成