
Hugging Face 推出醫療任務生成式 AI 基準測試
作者: | 日期:2024 年 4 月 19 日
挑戰與評估醫療生成式 AI 的必要性
生成式 AI 模型正日益進入醫療領域,一些早期採用者相信它們將提高效率,並發現否則可能被忽略的見解。但批評者指出,這些模型存在缺陷和偏見,可能導致較差的健康結果。然而是否存在量化的方法來知曉模型在總結病歷或回答健康相關問題等任務時有多麼有幫助或有害呢?
Open Medical-LLM 基準測試的提出
Hugging Face 在《Open Medical-LLM》基準測試中提出了一個解決方案。這項測試是與非營利組織 Open Life Science AI 和愛丁堡大學自然語言處理小組的研究人員合作建立的,旨在標準化評估生成式 AI 模型在各種醫療相關任務上的效能。
Open Medical-LLM 的內容及意義
Open Medical-LLM 不是全新的基準測試,而是一個整合了現有測試集(如 MedQA、PubMedQA、MedMCQA 等)的基準測試,設計用於檢測模型對一般醫學知識和相關領域(如解剖學、藥理學、遺傳學和臨床實踐)的理解能力。這個基準測試包括需要醫學推理和理解的多項選擇和開放式問題,包括美國和印度的醫學執照考試以及大學生物學測驗問題庫的材料。
專家觀點及反響
一些醫學專家在社交媒體上對 Open Medical-LLM 提出了警告,擔心過度依賴該基準測試可能導致訊息不足的部署。一位留醫學博士在 Twitter 上指出,醫學問答的“虛擬環境”與實際臨床實踐之間存在著相當大的差距。
深層測試的重要性
有關 Open Medical-LLM 的合著者 Clémentine Fourrier 也同意這一點。她表示這些排行榜只能作為對於特定使用案例探索哪種生成式 AI 模型的初步近似值,但隨後仍需進行深入測試,以檢測模型在真實條件下的極限和相關性。醫學模型絕對不應該單獨由患者使用,而應該接受培訓成為醫生的輔助工具。
反思與建議
Google 嘗試在泰國的醫療系統中推出了一個用於糖尿病性視網膜病變篩查的 AI 工具,然而儘管具有較高的理論準確性,該工具在實際測試中卻顯得不切實際,導致患者和護士對其不一致的結果感到沮喪,並且與當地的實踐缺乏協作一致性。
值得注意的是,美國食品和藥物管理局迄今已批準了 139 款與 AI 相關的醫療裝置,但沒有一款使用生成式 AI。測試生成式 AI 工具在實驗室中的效能如何轉化為醫院和門診診所以及其結果隨著時間推移可能走向,這是非常困難的。這並不是說 Open Medical-LLM 沒有用處或訊息價值。無可否認,結果排行榜提醒了我們模型回答基本健康問題的不足之處。然而 Open Medical-LLM,或者任何其他基準測試,都不能替代經過慎重思考的現實測試。
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!
- ElevenLabs 推出全新語音轉文字模型,引領 AI 語音技術的新潮流!