AIGC

用高效 AI 測試健康任務！Hugging Face 釋出基準測試

Hugging Face 推出醫療任務生成式 AI 基準測試作者： | 日期：2024 年 4 月 19 日挑戰與評估醫療生成式 AI 的必要性生成式 AI 模型正日益進入醫療領域，一些早期採用者相信它們將提高效率，並發現否則可能被忽略的見解。但批評者指出，這些模型存在缺陷和偏見，可能導致較差的健康 .... (往下繼續閱讀)

by 程宇肖
2024/4/19
5 分鐘閱讀時間

A- A A+

文章目錄

Hugging Face 推出醫療任務生成式 AI 基準測試

作者： | 日期：2024 年 4 月 19 日

挑戰與評估醫療生成式 AI 的必要性

生成式 AI 模型正日益進入醫療領域，一些早期採用者相信它們將提高效率，並發現否則可能被忽略的見解。但批評者指出，這些模型存在缺陷和偏見，可能導致較差的健康結果。然而是否存在量化的方法來知曉模型在總結病歷或回答健康相關問題等任務時有多麼有幫助或有害呢？

Open Medical-LLM 基準測試的提出

Hugging Face 在《Open Medical-LLM》基準測試中提出了一個解決方案。這項測試是與非營利組織 Open Life Science AI 和愛丁堡大學自然語言處理小組的研究人員合作建立的，旨在標準化評估生成式 AI 模型在各種醫療相關任務上的效能。

Open Medical-LLM 的內容及意義

Open Medical-LLM 不是全新的基準測試，而是一個整合了現有測試集（如 MedQA、PubMedQA、MedMCQA 等）的基準測試，設計用於檢測模型對一般醫學知識和相關領域（如解剖學、藥理學、遺傳學和臨床實踐）的理解能力。這個基準測試包括需要醫學推理和理解的多項選擇和開放式問題，包括美國和印度的醫學執照考試以及大學生物學測驗問題庫的材料。

專家觀點及反響

一些醫學專家在社交媒體上對 Open Medical-LLM 提出了警告，擔心過度依賴該基準測試可能導致訊息不足的部署。一位留醫學博士在 Twitter 上指出，醫學問答的“虛擬環境”與實際臨床實踐之間存在著相當大的差距。

深層測試的重要性

有關 Open Medical-LLM 的合著者 Clémentine Fourrier 也同意這一點。她表示這些排行榜只能作為對於特定使用案例探索哪種生成式 AI 模型的初步近似值，但隨後仍需進行深入測試，以檢測模型在真實條件下的極限和相關性。醫學模型絕對不應該單獨由患者使用，而應該接受培訓成為醫生的輔助工具。

反思與建議

Google 嘗試在泰國的醫療系統中推出了一個用於糖尿病性視網膜病變篩查的 AI 工具，然而儘管具有較高的理論準確性，該工具在實際測試中卻顯得不切實際，導致患者和護士對其不一致的結果感到沮喪，並且與當地的實踐缺乏協作一致性。

值得注意的是，美國食品和藥物管理局迄今已批準了 139 款與 AI 相關的醫療裝置，但沒有一款使用生成式 AI。測試生成式 AI 工具在實驗室中的效能如何轉化為醫院和門診診所以及其結果隨著時間推移可能走向，這是非常困難的。這並不是說 Open Medical-LLM 沒有用處或訊息價值。無可否認，結果排行榜提醒了我們模型回答基本健康問題的不足之處。然而 Open Medical-LLM，或者任何其他基準測試，都不能替代經過慎重思考的現實測試。

ArtificialIntelligence-人工智慧,健康科技,HuggingFace,基準測試

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集