單考慮分佈偏移遠不夠!真實數據很複雜,「外部有效性」不可或缺

..

作者丨Deborah Raji

解讀 | Antonio

編輯丨陳彩嫻

數據分佈偏移(data distribution shift)是可信人工智能系統熱衷於考慮的一個話題,每年關於它的相關研究數不勝數。然而,僅關注分佈偏移就足夠了嗎?

近期,紐約大學AI Now研究所的技術研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個人博客argmin上發表了對這一話題的看法。

她對於學界過度關注分佈偏移感到擔憂,認為更應該考慮統計上一個相關概念,即外部有效性(external vadality)。



1

數據分佈偏移

數據偏移一直在可信人工智能上的一項「殺手鐧」。例如,由美國史詩系統公司研發、被密歇根大學醫院廣泛應用的敗血症識別模型在2020年4月由於頻繁出現虛假報警,而被緊急叫停。據分析,這是因為新冠大流行導致的人口地理學特徵發生了變化才使得模型出現偏差。

這是數據分佈偏移的一個例子:當測試集的數據與訓練集的數據分佈發生變化時候,模型無法有效遷移到新的應用場景下導致出錯。

這和不斷變化的本質相關:真實世界的數據往往是動態的、變化的、不確定的,例如軟件部署變化,人口遷移,行為變化,語言演變等,如果模型不將這些予以考慮,就會出現系統性偏差。

Benjamin Recht發表過這樣一個另一驚訝的研究,他們重新按照ImageNet的數據收集方式收集了一批新的測試集,用原有的模型對新測試集進行準確性測試,發現了如下的結果:

其中,橫軸代表在原始數據測試集的測試性能,縱軸代表新數據集上的測試性能,藍色的每個點代表一個模型的結果,紅色的線則是對它們的線性擬合,黑色的虛線y=x代表理論上測試結果應該具有的表現。

可以看出,儘管二者之間仍然存在線性相關,即在原數據集上表現好的,在新的數據集也表現得很好,反之亦然;然而,它們之間仍相差將近15%的差距,這就是由於數據分佈偏差所導致的。這裡的偏差可能來自不同的標註者偏好,不同的數據收集過程等等。



2

研究現狀

Deborah Raji承認研究這種現象的重要性,但她認為ML的研究者們太過於執着於關注分佈偏移這一話題了,以至於很多情況下將模型的任何失誤都歸因於了分佈偏移,而她認為這是不合適的。

首先,她認為「分佈偏移」這一問題有時候太過具體,有時候又不夠具體。任何數據上的變化都可以認為是一種「分佈偏移」,例如數據特徵本身的變化、數據標籤的變化以及二者都發生的變化。

另一方面,這一術語又太寬泛模糊了。「數據分佈」這個概念自身就需要假設數據來自一個假象的「真實」分佈中,而現實可以觀察到的數據則是從這一整體分佈中獨立同分佈的採樣數據。然而這個分佈是什麼呢?沒人知道——真實數據混亂、無序、不可預知。

數據分佈偏移了,可是哪些部分發生了變化,為什麼它們發生,這些都無從得知。

Deborah Raji進而警告道,對於這一術語的痴迷會如何限制ML社區的發展。一個表現是,現在的社區熱衷於開發檢測數據分佈偏移的基準測試,以此來聲稱測試偏移的程度。然而這些數據是靜態的、理想的,無法適應真實世界更加複雜的數據。

有些研究已經開始得出結論:過度強調數據分佈偏移已經使得ML實踐者和政策制定者更專註於回顧性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者針對於靜態收集的歷史性數據而言,後者則更加着重於系統的上下文背景。

回顧性研究與前瞻性研究

為此,Deborah Raji希望研究可以更加轉向「有效性」(validity)這一概念。有效性是統計中測度論(measurement theory)中的重要概念,用以衡量系統的可信賴性。有效性又包含內部有效性(internal validity)和構建有效性(construct validity)。當討論泛化性的時候,我們更關注於外部有效性(external validity)。



3

外部有效性

外部有效性衡量模型如何泛化到其它場景、設定。這些測試的設定往往不是實驗原有的環境,並且考慮到不僅僅是數據方面的變化。

Deborah Raji以一篇文章為例,這篇發表在JAMA的,名為「在住院患者中廣泛使用的敗血症預測模型的外部有效性分析」對於開頭中的那個例子中的模型做了更加詳盡的「外部有效性」分析。

外部有效性分析模型的論文

網址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307

首先這篇文章描述了一項關於 2018 年 12 月至 2019 年 10 月期間(尤其是在大流行開始之前)使用敗血症模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者,發現Epic模型預測敗血症發病的曲線下面積為 0.63,而「這比其開發人員報告的性能要差得多」。

此外,該工具「未識別出 1,709 名敗血症患者(67%),因此造成了很大的虛假報警。」

這些研究人員正確地將這些問題描述為「外部有效性」問題,並詳細研究了它們,這遠遠超出了「臨床醫生和數據集偏移」——一個靜態的偏移數據集中描述的數據分佈偏移。

對於Epic 系統的評估是基於 2013 年至 2015 年 3 個美國衛生系統的數據,這與密歇根大學 2018-2019 年的患者記錄數據不同。但該評估不僅僅考慮數據問題,還評估了醫生與模型交互的變化以及這些變化如何影響結果,以及其他與數據幾乎沒有關係的外部有效性因素——這遠超過了數據分佈偏移。

即使在討論實質性的數據更改時,研究者們也會試圖具體描述它是什麼,並具體分析在他們醫院部署時發生的差異。



4

關於作者

作者Deborah Raji是尼日利亞裔加拿大計算機科學家和活動家,她致力於研究算法偏見、人工智能問責制和算法審計。她曾與 Google 的Ethical AI 團隊合作,並曾在紐約大學AI和AI Now研究所的合作夥伴關係中擔任研究員,致力於研究如何在機器學習工程實踐中考慮道德因素,曾於AI公正性研究的Timnit Gebru做過同事,也曾獲得過該領域多個獎項。

Deborah Raji與Ben Recht已經在這個外部有效性這一話題上已經展開了很多深入的討論,後續關於這一問題的探討也會陸續放在arg min的博客上,感興趣的讀者可以關注查看~

參考博客:

https://www.argmin.net/2022/03/31/external-evaluations/
http://www.argmin.net/2022/03/15/external-validity/

雷峰網


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems