
<div><h2>機器學習能夠提問,使其更加智慧</h2>
<h3>簡介</h3>
杜克大學的生物醫學工程師們展示了一種顯著提高機器學習模型效果的新方法,只需使用部分可用資料。透過使用主動識別資料集中的空缺的算法,研究人員在某些情況下可以將準確性提高一倍以上。這種新方法可以更容易地幫助科學家識別和分類具有開發新藥物候選物和其他材料的特徵的分子。這項研究於 2023 年 6 月 23 日發表在《Royal Society of Chemistry》的雜誌《Digital Discovery》上。
<h3>問題</h3>
機器學習算法越來越多地用於識別和預測小分子(如藥物候選物和其他化合物)的特性。儘管在計算能力和機器學習算法方面都取得了顯著進展,但它們的能力當前受到用於訓練它們的現有資料集的約束,這些資料集遠遠不完美。其中一個主要問題涉及資料中的偏差。當有大量資料點顯示一個特性遠超過另一個特性時,就會出現偏差,例如一個分子抑制特定蛋白質的潛在能力或有關其結構的特徵。杜克大學的生物醫學工程助理教授 Daniel Reker 解釋道:“這就像你訓練一個算法來區分狗和貓的圖片,但是你給它一十億張狗的照片來學習,只給它一百張貓的照片。”他說:“該算法在辨識狗方面會變得非常好,然後所有東西都會開始看起來像狗,它會忘記世界上其他的東西。”
這對藥物發現和開發特別是一個問題,因為科學家們通常處理的資料集中超過 99%的測試化合物都是“無效”的,只有一小部分分子被標記為潛在有用。為理解決這個問題,研究人員使用一個稱為資料子抽樣的過程,其中他們的算法從一個小但(希望)代表性的子集中學習。儘管此過程可以透過給模型提供相等數量的示例來消除偏差,但它也可能刪除關鍵資料點,並對算法的整體準確性產生負面影響。為了彌補這一問題,研究人員提出了數百種資料子抽樣技術,以約束丟失訊息的量。但 Reker 及其合作者想探索一下稱為主動機器學習的技術是否能解決這個長期存在的問題。
<h3>對策</h3>
Reker 表示:“透過主動機器學習,當算法感到困惑或資料中存在缺口時,算法基本上能夠提問或請求更多訊息,而不是被動地篩選資料。這使得主動學習模型在預測效能方面非常高效。”一般來說 Reker 和其他研究人員應用主動學習算法來生成新資料,例如識別新藥物,但 Reker 和他的團隊想探索的是如果讓算法在現有資料集上自由發揮的情況。雖然在其他研究中已經探索了這種子抽樣應用的主動機器學習,但 Reker 和他的團隊是第一個在分子生物學和藥物開發領域測試該算法的。
為了測試他們主動子抽樣方法的效率,團隊收集了具有不同特徵的分子資料集,包括可以穿越血腦屏障的分子,可以抑制與阿茨海默病有關的蛋白質的分子以及已被證實能夠抑制 HIV 複製的化合物。然後,他們將他們的主動學習算法與從完整資料集中學習的模型和 16 種最先進的子抽樣策略進行比較。團隊表明,主動子抽樣比每一種標準子抽樣策略更能準確地識別和預測分子特性,最令人驚訝的是,在某些情況下,比從完整資料集中訓練的算法效果更好達到了 139%。他們的模型還能夠準確地適應資料中的錯誤,這表明它對低質量資料集尤其有用。
<h3>結論</h3>
研究團隊發現,使用的理想資料量比預期的要低得多,有些情況下只需使用可用資料的 10%。Reker 解釋道:“主動子抽樣模型收集到所有所需的訊息時,如果再新增更多資料,效能反而會下降。”他說:“這個問題對我們來說尤其有趣,因為它指出了一個曲率點,即即使在子抽樣中,更多的訊息也不再有幫助。”
Reker 和他的團隊希望在未來的工作中研究這一曲率點,並計劃使用這種新方法來識別潛在的治療靶點的新分子。由於主動機器學習在許多不同的研究領域中越來越受歡迎,該團隊對他們的工作有很大的期望,希望能幫助科學家更好地理解這個算法以及它對資料中的錯誤的韌性。Reker 表示:“這種方法不僅可以提高機器學習的效能,還可以減少資料儲存需求和成本,因為它是使用更精煉的資料集進行操作。”他說:“這使得機器學習對每個人來說都更加可重復,可獲取和強大。”</div><div>AI-機器學習,全方位提問,智慧度,人工智慧,深度學習,模型訓練,</div>
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!
- ElevenLabs 推出全新語音轉文字模型,引領 AI 語音技術的新潮流!