開放科學與資料科學如何兼容?

:這是為2017/11/11將在台灣資料科學年會發表的演講,所寫的文字稿。演講投影片以圖像為主,講述幾個相關的故事。文字版濃縮我想傳達的想法與觀察,為一年之後有機會再做演講時,比較此時與彼時的變化。

三年前(2014),我得知Many Labs Project的出現,開始注意這種大規模合作的心理學研究,將對心理科學的研究文化產生什麼影響。這類專案運用的資料科學方法,帶領我在隔一年透過Coursera自學資料科學課程,並嘗試翻新自已的研究與教學內容。這一段時間,我曾以為我從事的科學研究要向資料科學學習,才能有所突破。又一年,經歷與國外推動開放科學的學者第一手合作註冊研究的經驗,認清如果要更新我所從事的經典科學,要先覺悟長久習慣的研究手段容易造成低品質的科學成果,吸納資料科學的可重製方法,改善個人乃至團隊的科學活動品質,經典科學才能蛻變為開放科學

為何稱呼我從事的科學是經典科學?這要從經典科學與資料科學的根本分際談起。從目的來說,任何領域的經典科學是要根據可重現的事實建立能被考驗的理論。資料科學追求能有效預測、控制現象發生的模型。中央研究院資訊所陳昇瑋老師的知名簡報:網路購書大數據-給出版者的洞察分析,其中所舉的三種類型暢銷書預測模型,體現資料科學所追求的目標。把這些模型放到經典科學的場域,提問的方向應該會變成:「這些模型能呈現這個社會的閱讀品味嗎?」

目的不同還不足以充分解釋經典科學為何是經典,應該從兩種科學家的知識觀(Epistemology)做一些探討。我認為了解兩者如何收集與處理資料,能對兩造知識觀做一個簡單剖析。經典科學是依研究計畫收集資料,資料格式符合設計與分析方法的設定。資料科學取用未具格式或待清理的資料,使用各種數學方法(機器學習是當紅的一種),找出最能解釋資料的模型。資料最終都會形成有意義的知識,但是經典科學家追求能成為經典的知識典範。而許多資料科學家獲得的知識,是能助人能獲得實際利益的模式。

經典科學與資料科學在達到目的與追求新知的過程,都遇到的失敗的經驗,從兩個例子可略窺一二。2008年google團隊提出預測流感的演算法而喧騰一時,不出一年就預測失準而修正。經過幾年數次的修正,到了2014年,團隊宣佈失敗並關閉網站,將資料釋出給其他團隊接手。其中細節並非我的專業不便評論,但是這個故事給所有期待依賴資料與統計模型獲取知識的人們明確的教訓:只有資料無法萃鍊真正有效的預測模型。

與之對比的經典科學失敗之例也發生在2014年。當年美國國家科學院通訊(搜尋結果 Proceedings of the National Academy of Sciences)刊登一篇臉書研發部門與康乃爾大學合作的情緒渲染實驗。除了研究倫理問題導致臉書在論文發表數月後,公開向受影響的70萬用戶致歉,這篇論文宣稱臉書使用者接受大量負面情緒訊息,個人在臉書留言的負面訊息會顯著增加。實際上,這句結論根據的統計資訊,是非常微弱的效果量(d = 0.001)。這筆數值反映一位臉書使用者的留言要累積達一萬字,才會出現四個負面字眼。因為收集的樣本龐大,如此微小的差距才有統計顯著,但是毫無實質的科學意義,或者吸引投資研發的魅力。

更值得探討的是,登場時光芒萬丈,過沒幾年甚至幾天黯然下台的知識案例,在過去的科學史層出不窮,也可預期未來還有更多經不起長久考驗的知識出現。為何會出現這些案例的原因,是值得從事經典科學與資料科學的人士探究的題目。我認為有兩個方向是所有現代科學製造低品質知識的起源:一是因子大雜燴(Crud Factors),二是以確證的主張包裝尚在探索的發現(Exploration-as-Confirmation Fallacy)。

因子大雜燴是已故的美國心理學家Paul Mheel於1990年的論文提出的現象歸納。他以此名稱,形容任何無盡地累積一種現象的資料,最終必能發現顯著變項間相關的任何研究(the phenomenon that ultimately everything correlates to some extent with everything else)。Meehl以1966年與同事Lkynn曾從事的研究為例,他們接受委託分析57,000名明尼蘇達州高中生的諮商量表資料,一共有15項變項,構成105筆相關係數。以顯著性檢定分析,他們發現其中101筆的p值最大者只到小數點後6位。在此我讓讀者自己評斷,這些情節與前面提到的google流感預測,是不是有相似之處?

如果有研究會被人以確證的主張包裝尚在探索的發現,通常帶著幾個明顯的特徵:觀點新穎、發表的成果一面倒支持原作者觀點、尚未有與原作者無利益衝突的其他研究者成功重現。近期最著名的例子就是權力姿勢效應,請參考我過去寫的文章

當我彙整上述案例時,部落客Ruben Arslan發表Overfitting vs. Open Data,談論資料科學實務經常碰到的過度適應(Overfitting)與科學界的再現危機(Replication crisis)相似之處,讓我想到這是讓資料科學人士理解為何經典科學要邁進開放科學的好入口。許多案例的預測模型都是先透過訓練資料(Training data)建立,再以測試資料(Testing data)驗證。有時模型能完美預測訓練資料的變項關係,測試資料的預測誤差卻超過容許範圍,這種情況就是過度適應。如果把訓練資料當成新穎的研究成果,測試資料就是後續的再現研究,無法被重現的新奇發現,就是經典科學版過度適應現象。

開放科學人士推廣註冊研究的重要原因,就是要消除經典科學家們製造因子大雜燴,以及用確證的主張為探索性目的做結論的內在動機。資料科學克服過度適應所獲得的經驗,我相信是現在期望借重資料科學方法的經典科學人士,應該學習的課題。如此產生的知識,才能有效的累積。要促進這樣的景況,需要參與其中的任何人,不管是經典科學家還是資料科學家,過程中要維持當下的決定與作為,會不會造成無法再現或過度適應。

!登入個人github帳號就能留言!