網路議題

微軟開源 EvoDiff,一款創新的蛋白質生成 AI

微軟開源 EvoDiff:一種新穎的蛋白質生成 AI 引言蛋白質是身體內進行關鍵細胞功能的天然分子,也是所有疾病的基礎。表徵蛋白質可以揭示疾病的機制,包括減緩疾病程式或可能逆轉疾病,而建立蛋白質則可能引領全新類別的藥物和治療方法。然而現有的在實驗室設計蛋白質的過程既昂貴(在計算和人力資源方面),也耗時 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

微軟開源 EvoDiff,一款創新的蛋白質生成 AI

微軟開源 EvoDiff:一種新穎的蛋白質生成 AI

引言

蛋白質是身體內進行關鍵細胞功能的天然分子,也是所有疾病的基礎。表徵蛋白質可以揭示疾病的機制,包括減緩疾病程式或可能逆轉疾病,而建立蛋白質則可能引領全新類別的藥物和治療方法。然而現有的在實驗室設計蛋白質的過程既昂貴(在計算和人力資源方面),也耗時。這個過程涉及找到能夠在體內執行特定任務的蛋白質結構,然後找到一個可能“折疊”為該結構的蛋白質序列─由氨基酸組成蛋白質的線序。蛋白質必須正確折疊成三維形狀來執行其預期功能。然而這種設計過程並不一定如此複雜。

EvoDiff開源蛋白質生成框架

本週,微軟推出了一種稱為 EvoDiff 的通用框架,聲稱這個框架可以根據蛋白質序列生成“高保真度”和“多樣性”的蛋白質。與其他蛋白質生成框架不同,EvoDiff 不需要目標蛋白質的結構訊息,從而減少了通常最繁瑣的步驟。EvoDiff 可用於建立新治療方法和藥物傳遞方法的酶以及用於工業化學反應的新酶,微軟高級研究員楊凱文表示。他是 EvoDiff 的共同創造者之一。他在接受 TechCrunch 的電子郵件訪談中說:“我們預計 EvoDiff 將在蛋白質工程方面擴充套件能力,突破結構-功能範例,朝著可程式設計、優先序列設計的方向發展。我們透過 EvoDiff 展示了“不實際上需要結構,而是'蛋白質序列'是設計新蛋白質所需的全部”。

EvoDiff 的核心框架

EvoDiff 的核心框架是一個訓練有 640 百萬個引數的模型,該模型利用各種物種和功能類別的蛋白質資料進行訓練。(“引數”是從訓練資料中學到的 AI 模型的部分,基本上定義了模型對問題的技巧,本案例中是生成蛋白質。)模型的訓練資料來源於 OpenFold 資料集,用於序列比對以及 UniProt 的一個子資料集 UniRef50,它是由 UniProt 協會維護的蛋白質序列和功能訊息資料庫。

EvoDiff 是一種擴散模型,其結構類似於許多現代生成影象的模型,例如 Stable Diffusion 和 DALL-E2。EvoDiff 學會了如何逐步從幾乎全部由噪聲組成的初始蛋白質中減去噪聲,逐步將其移近到蛋白質序列。以下是 EvoDiff 生成蛋白質的過程示意圖:

擴散模型中所生成的蛋白質。圖片來源:Microsoft。

EvoDiff 的應用及未來發展

擴散模型越來越多地應用於影象生成以外的領域,從創造新蛋白質(如 EvoDiff)到創作音樂甚至合成語音。微軟高級研究員 Ava Amini 是 EvoDiff 的另一個共同貢獻者,他強調了 EvoDiff 的能力不僅可以建立新蛋白質,還可以填補現有蛋白質設計的“空白”。舉例來說如果提供了與另一個蛋白質結合的部分,模型可以生成符合一組條件的蛋白質氨基酸序列。由於 EvoDiff 是在“序列空間”中設計蛋白質,而不是在蛋白質結構上,它還可以合成“無序蛋白質”,這些蛋白質無法折疊成最終的三維結構。和常規功能的蛋白質一樣,無序蛋白質在生物學和疾病中發揮重要作用,例如增強或減少其他蛋白質的活性。

需要注意的是,EvoDiff 的研究尚未進行同行評審(至少當前還沒有)。微軟的資料科學家 Sarah Alamdari 對該專案有所貢獻,她承認在該框架能夠商業化使用之前還需要進行“更多的擴充套件工作”。她在電子郵件中表示:“這只是一個擁有 640 百萬個引數的模型,如果我們擴充套件到數十億個引數,可能會看到改善的生成質量。儘管我們展示了一些粗粒度策略,但為了實現更細粒度的控制,我們需要以文字、化學訊息或其他方式來條件化 EvoDiff 以指定期望的功能。” 作為下一步,EvoDiff 團隊計劃在實驗室中測試模型生成的蛋白質以確保其是否可行。如果結果證實可行,他們將開始研究該框架的下一代。

結論與展望

微軟開源框架 EvoDiff 透過使用擴散模型技術,不需要結構訊息即可生成具有“高保真度”和“多樣性”的蛋白質序列。這一框架的應用潛力巨大,可以用於開發新型蛋白質藥物和治療方法以及改進工業化學反應的酶。然而該研究尚未進行同行評審,還需要進一步的擴充套件工作和取證。隨著更多的研究和改進,EvoDiff 可能將成為蛋白質設計領域的重要工具,為人類的健康和科學研究帶來重大突破。

原文來源:Kyle Wiggers, "Microsoft open sources EvoDiff, a novel protein-generating AI," TechCrunch, [日期]

AI-開源,EvoDiff,蛋白質生成,AI,微軟
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。