
科學家建立了一個可以生成生物研究 AI 模型的系統
簡介
麻省理工學院的生物工程系特米爾教授 Jim Collins 和 Abdul Latif Jameel 機器學習醫療發展中心的生命科學負責人以及其他同事們開發了一個名為 BioAutoMATED 的自動機器學習系統,可以為給定的資料集選擇並生成適當的模型,甚至可以處理繁瑣的資料預處理工作。這個解決方案的論文已經在 Cell Systems 上發表。
為什麼需要自動機器學習系統
招募機器學習研究人員對科學和工程實驗室來說是耗時且財力消耗大的過程。即使有機器學習專家,選擇適當的模型、為模型格式化資料集以及對其進行微調,都會大大改變模型的效能,並且需要大量工作。事實上根據 Google 的統計,將 80%以上的專案時間用於資料準備和轉換,在計算專案中,令人驚訝的大部分時間都用於這項工作。對於想使用機器學習或生物學領域的人來說這一步實在是太消耗時間和精力。
BioAutoMATED 的功能
BioAutoMATED 是一個自動機器學習系統,可以為給定的資料集選擇並生成適當的模型,並且可以處理繁瑣的資料預處理工作。當前自動機器學習系統(AutoML)仍處於相對早期的發展階段,主要應用於影象和文字識別,但在生物學的子領域中很少使用。但是 BioAutoMATED 將 AutoML 系統的功能擴充套件到了生物序列的分析與設計。這是因為生物學的基本語言是基於序列的,例如 DNA、RNA、蛋白質和糖類,這些序列具有類似字母表的訊息屬性。傳統上,大部分的 AutoML 工具僅能探索和構建簡化的模型。而 BioAutoMATED 的優點在於,它整合了多種 AutoML 工具,使得可以搜尋比單個 AutoML 工具更多的模型,從而使得科學家和研究人員能夠更好地選擇和開發生物研究中需要的模型。BioAutoMATED 的監督式機器學習模型包括二元分類模型、多類別分類模型和回歸模型,同時還可以幫助確保所需的資料量以便適當地訓練選定的模型。
BioAutoMATED 的影響
BioAutoMATED 的開發將顯著降低進行生物學和機器學習交叉領域研究所需的資金消耗,特別是對於生物學專家而言。現如今對於生物學領域的實驗室來說他們需要在能夠看到他們的想法是否能夠實現之前,先投資於大量的數位基礎設施和具備 AI 和機器學習技術的人力資源。有了 BioAutoMATED,研究人員可以進行初步實驗,以評估是否值得聘請機器學習專家構建更多的模型進行進一步實驗。BioAutoMATED 的程式碼是開源且易於執行的,研究人員希望能夠透過與更廣泛的社群合作,將 BioAutoMATED 成為大家都可以使用的工具,並為所有人帶來便利。
結語
BioAutoMATED 的開發為生物學和機器學習的進一步發展提供了重要的工具和平臺。該系統的出現將大大簡化生物研究中機器學習模型的構建過程,從而節省時間和資源。未來,隨著自動機器學習系統的進一步發展,我們可以預見更多的應用場景,幫助科學家和研究人員在各個領域開展高效且創新的工作。
延伸閱讀
- 全方位解析 Google Gemini:你必須知道的生成式人工智慧模型!
- 安德烈·卡帕西的新創企業旨在將 AI 助教應用於教育 + 深度學習頂尖科學家打造 AI 助教 - 攜手 Tesla 和 OpenAI
- MIT 軟體機器人系統,設計用於打包食品雜貨
- 前 OpenAI 首席科學家 Ilya Sutskever 推出新人工智慧公司
- 法國監管機構因亞馬遜監控倉庫工人系統對其處以 3500 萬美元罰款
- 麻省理工學院科學家開發振動減肥藥
- 中國搜尋引擎巨頭百度揭示 Ernie 4.0 人工智慧模型,聲稱與 GPT-4 不相上下
- OpenAI 旗艦人工智慧模型越來越可信,但越來越容易被欺騙
- 科學家透過對抗式持續學習,推進聲音病理學檢測
- 科學家開始利用 ChatGPT 背後的技術來構建科學發現的人工智慧