
Google AI 健康聊天機器人透過美國醫療考試:研究發現
簡介
根據一項同行評審的研究報告,Google 的人工智慧(AI)驅動的醫療聊天機器人已透過了一項嚴格的美國醫療執照考試,但其回答仍然不及人類醫生的水準。儘管人們對於 AI 在未來的可能性和危險性已經這方面已經有很多討論,但醫療領域已經顯示出 AI 技術已經取得了具體的進展,當前的算法已經可以像人類一樣讀取某些醫學掃描。
Google 的 AI 聊天機器人
去年 Google 的競爭對手微軟背後支援的 OpenAI 推出了 ChatGPT,這款機器學習模型的發布引發了科技巨頭們在 AI 領域的競爭。然而與 ChatGPT 不同的是,Google 的 AI 工具名為 Med-PaLM,用於回答醫療問題,在去年 12 月的一項預印研究中首次亮相。與未釋出的 ChatGPT 不同,Google 表示 Med-PaLM 是第一個透過美國醫療執照考試(USMLE)的大型語言模型。根據該考試的透過分數標準,醫學生和實習醫師在美國參加考試時,及格分數約為 60%。今年 2 月的一項研究顯示 ChatGPT 已經達到及格或接近及格的成績。
研究結果
根據本週三在《自然》期刊上發表的同行評審研究報告,Google 的研究人員表示 Med-PaLM 在美國醫療執照考試的單選題上實現了 67.6%的成績。該研究報告指出:"Med-PaLM 的表現令人鼓舞,但仍然不及醫生。"為了識別和減少 AI 模型提供虛假訊息的現象,Google 表示他們已經開發了一個新的評估標準。該研究報告的主要作者、Google 的研究人員 Karan Singhal 告訴法新社,團隊使用這個評估標準測試了新版本的模型,取得了"非常令人興奮的"結果。根據今年 5 月的一項未經同行評議的預印研究,Med-PaLM 2 在美國醫療執照考試中達到 86.5%的成績,比上一版本提高了近 20%。
AI 在醫療領域的挑戰
英國巴斯大學的電腦科學家 James Davenport 指出,這些基於 AI 的醫療聊天機器人面臨著一個"無法忽視的問題"。他表示回答"醫學問題和實際醫學"之間存在著很大的差異,後者包括診斷和治療真實的健康問題。英國利茲大學的 AI 專家 Anthony Cohn 表示這些大型語言模型的統計性質使得虛假訊息的產生成為一個常見問題。因此這些模型應該被視為"助手"而不是最終的決策者,Cohn 說。Singhal 表示未來 Med-PaLM 可能被用於支援醫生提供其他可能性,否則可能不會被考慮到。根據《華爾街日報》本週早些時候的報導,自今年 4 月以來,Med-PaLM 2 已在美國知名的梅奧診所研究醫院進行測試。Singhal 表示他無法談論具體的合作夥伴關係。但他強調測試結果不會對臨床、面向患者或可能對患者造成傷害的事項產生影響,而僅用於相對容易自動化且風險較低的"行政任務"上。
結語
本研究結果顯示,AI 技術在醫療領域已經取得了一定的進展,但在實際應用中仍存在著一些挑戰。雖然 Med-PaLM 在醫學執照考試中取得了令人鼓舞的成績,但與醫生相比仍有不足之處。因此在使用這些 AI 工具時,人們應始終將其視為醫生的助手,而不是最終的決策者。此外繼續研究 AI 在醫療領域的潛力和約束,以便更好地利用這一技術,為人類的健康提供更好的支援和服務。
延伸閱讀
- Google 新 AI 模型挑戰極限,氣象預報系統迎來新競爭者!
- 「YouTube Shorts 即將整合 Google AI 視訊模型 Veo,帶來全新創作體驗!」
- 「Google AI 筆記本 NotebookLM:現在能爲你生動講解復雜主題!」
- GoogleAI 驅動的 Ask Photos 功能正式在美國上線!
- 科技新創公司 CEO 技術深度影響融資規模【研究發現】
- 「研究發現 AI 模型對爭議性議題持有相對立的觀點」
- 為何一些風險投資商正在從歐洲撤離?這是 Google 的 AI 推動?Byju's 的 CEO 是誰?
- Google 公佈全新 AI 強化教育功能
- 42%的 Mac 使用者每天使用 AI 應用程式:研究發現
- Google 的 AI 搜尋強化版:生成圖片,撰寫草稿