MLCommons 推出新平臺，用於測試 AI 醫療模型

MLCommons 推出新平臺，用於評估 AI 醫療模型引言在新冠疫情的催化下，醫療保健行業熱切地接納人工智慧技術。根據 Optum 於 2020 年進行的一項調查，80%的醫療機構已經制定了 AI 戰略，另外 15%計劃推出 AI 相關措施。各大公司，包括科技巨頭，也為了迎合需求，紛紛推出 AI .... (往下繼續閱讀)

by 江塵
2023/7/17
11 分鐘閱讀時間

A- A A+

文章目錄

MLCommons 推出新平臺，用於評估 AI 醫療模型

引言

在新冠疫情的催化下，醫療保健行業熱切地接納人工智慧技術。根據 Optum 於 2020 年進行的一項調查，80%的醫療機構已經制定了 AI 戰略，另外 15%計劃推出 AI 相關措施。各大公司，包括科技巨頭，也為了迎合需求，紛紛推出 AI 模型解答醫學問題並從醫學文獻中獲取洞見。此外 Hippocratic 和 OpenEvidence 等新創公司正在開發模型，向臨床醫生提供可操作的建議。然而隨著越來越多針對醫療用例的模型進入市場，要確保哪些模型能夠按照承諾的效能執行變得越來越困難。由於醫療模型通常是使用來自有限的、局限的臨床環境（例如東海岸的醫院）的資料訓練的，一些模型對特定的患者群體，通常是少數族裔，表現出偏見，這在現實世界中產生了有害影響。

MLCommons 推出 MedPerf 平臺

為了建立一種可靠、受信任的方法來評估醫療模型，針對 AI 工業指標建立工具的工程組織 MLCommons，研發了一個新的測試平臺，名為 MedPerf。MLCommons 表示 MedPerf 可以在「多樣化的真實醫療資料」上評估 AI 模型，同時保護患者的隱私。MLCommons 醫療工作組聯席主席 Alex Karargyris 在新聞稿中表示："我們的目標是將基準測試作為增強醫療 AI 的工具。在大而多樣的資料集上對模型進行中立和科學的測試，可以提高效益，減少偏見，建立公眾信任並支援合規性。"

MedPerf 的發展過程

MedPerf 是由醫療工作組牽頭，歷時兩年的合作結果，並得到了超過 20 家公司和 20 多所學術機構的意見反饋。MLCommons 表示醫療工作組的成員包括 Google、Amazon、IBM、Intel 等大公司以及 Brigham and Women's Hospital、斯坦福大學和麻省理工學院等大學。與 MLCommons 的通用 AI 基準測試套件（如 MLPerf）不同，MedPerf 設計用於醫療模型的操作人員和客戶，也就是醫療機構，而不是供應商。在 MedPerf 平臺上的醫院和診所可以根據需求評估 AI 模型，透過「聯邦評估」在遠端部署模型並在現場評估。除了支援常用的機器學習庫外，MedPerf 還支援私有模型和僅透過 API 提供的模型，比如 Epic 和微軟的 Azure OpenAI 服務。

MedPerf 的實踐應用

今年早些時候，MedPerf 在一項系統測試中承辦了由 NIH 資助的聯邦腫瘤分割（FeTS）挑戰賽，這是對用於評估顱內腫瘤手術後治療的模型進行大規模比較的活動。MedPerf 在六大洲 32 個醫療機構上支援了 41 個不同的模型測試，包括在本地和雲端執行。根據 MLCommons 的說法，所有模型在與其訓練資料不同的患者人口統計特徵的醫療機構表現出了降低的效能，揭示了其中的偏見。Dana-Farber 癌症研究所的人工智慧運營主任兼 MLCommons 醫療工作組聯席主席 Renato Umeton 在一份宣告中表示："看到 MedPerf 的醫療 AI 試點研究結果非常令人興奮，所有模型都在醫院系統上執行，利用預先協議的資料標準，並且不共享任何資料。這些結果加固了透過聯邦評估建立基準測試是朝著更具包容性的 AI 醫療目標邁出的正確步伐。"

為了更具韌性的測試而努力

MLCommons 認為，MedPerf（當前主要用於評估放射學掃描分析模型）是實現其加速醫療 AI 目標的"基礎性步驟"。它呼籲 AI 研究人員使用該平臺取證他們自己的模型，並鼓勵資料所有者註冊其患者資料，以增加 MedPerf 測試的韌性。但是筆者對於 MedPerf 的作用是否真正解決了醫療 AI 領域中棘手的問題抱有疑慮。“杜克大學的研究人員最近編制的一份報告揭示了 AI 市場銷售與技術工作實際進展之間的巨大差距。該報告發現很多困難在於如何將技術應用於醫生和護士的日常工作中以及包圍他們的複雜的護理交付和技術系統。這並不是一個新問題。在 2020 年，Google 發布了一份令人驚訝的白皮書，詳細說明了其用於糖尿病視網膜病變篩查工具在真實測試中存在問題的原因。阻礙並不在於模型本身，而是醫院如何部署裝置、網際網路存取強度甚至患者對 AI 輔助評估的反應等。可預見地，醫療從業人員對於醫療 AI 存在著褒貶不一的看法。雅虎金融的一項民意調查發現，55%的人認為這項技術尚未成熟，只有 26%的人相信它是可信賴的。這並不意味著醫療模型偏見不是一個真實存在的問題--實際上它確實存在並產生後果。例如，Epic 的抗感染系統被發現在檢測敗血症病例時漏報許多情況，並經常發出虛假警報。同時對於規模不如 Google 或微軟的組織來說獲得多樣化、及時更新的醫療資料並不容易。然而在涉及到人們的健康時，將太多依賴放在像 MedPerf 這樣的平臺上是不明智的。畢竟，基準測試只能告訴故事的一部分。安全地部署醫療模型需要供應商及其客戶（更不用提研究人員）進行持續、徹底的審計。缺乏這樣的測試實在是不負責任的舉動。

評論與建議

醫療 AI 中的挑戰

上述文章提到的 MLCommons 的新平臺 MedPerf 在醫療 AI 領域中是一個引人注目的發展。然而我們需保持對這種平臺的基本功能進行謹慎評估，並設法解決醫療 AI 領域中的固有挑戰。近期杜克大學研究人員綜合匯編的一份報告揭示了 AI 市場和實際應用之間存在的巨大差距。這使我們看到，將 AI 技術整合到醫生、護士和周圍複雜的醫療技術系統中是困難的。確實，醫學模型的部署並不僅僅依賴於模型本身，還涉及到裝置、網際網路存取和患者對 AI 技術的接受程度等問題。因此單純依靠基準測試是不能解決這些問題的。

持續的測試和審計必不可少

在醫療 AI 領域中，供應商和客戶（包括醫院和醫療機構）在部署模型之前，應該進行持續的、徹底的審計，以確保模型的可靠性和安全性。基準測試只提供了模型效能的一個方面，但在實際情況下，模型的表現可能會受到多種因素的干擾。因此供應商和客戶需要密切合作，研究和解決可能出現的技術困難和實際應用中的挑戰。這樣的努力是無法忽視的，否則將對患者的健康產生負面影響。

加固資料的多樣性和易用性

除了引入測試平臺之外，我們還應該致力於解決醫療 AI 中存在的資料多樣性和易用性的問題。對於那些規模不如科技巨頭的組織來說獲得多樣化、及時更新的醫療資料是一個挑戰。因此需要努力將真實世界的資料納入模型的訓練，以使其更具韌性和普遍性。此外需要提供簡單易用的工具和介面，以方便醫療從業人員使用和部署 AI 模型。

結論

MLCommons 推出的 MedPerf 平臺為測試和評估 AI 醫療模型提供了一個重要的工具。然而作為醫療 AI 領域的一部分，我們不能僅僅依賴基準測試來解決挑戰。持續的測試和審計以及解決資料多樣性和易用性問題非常重要。這不僅是供應商和客戶的責任，也需要學術界和政府的參與。只有在多方協力下，才能達到更穩定、有效且可靠的醫療 AI 應用。

AI 醫療模型-MLCommons,AI 醫療模型,測試平臺

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集