
<div># 擴散變壓器:開放人工智慧之路
<h2> 審視開放人工智慧的重大突破</h2>
時間有限,人造智慧卻無限。最近 OpenAI 的"Sora"帶給我們一場無法置信的科技突破,可即時產出影片和互動的 3D 場景,這確實是人工智慧技術的一大裏程碑。值得注意的是,導致這一突破的創新之一是一種被俗稱為「擴散變壓器」的人工智慧模型架構,它早在幾年前就已經出現在人工智慧研究界。擴散變壓器同時也為 AI 新創公司 Stability AI 的最新影象生成器"Stable Diffusion 3.0"提供動力,顯然擴散變壓器有望透過使 GenAI 模型能夠超越以往的可能性,從而改變 GenAI 領域。
<h3> 駐駐陳思考</h3>
紐約大學的電腦科學教授謝賽寧(Saining Xie)於 2022 年 6 月開展了孕育出擴散變壓器的研究專案。他與 William Peebles 合作,William Peebles 是他在 Meta 的人工智慧研究實驗室實習時的學員,現在是擴散變壓器在 OpenAI 中的共同主管。謝賽寧將兩個機器學習的概念──擴散和變壓器──結合在一起,創造了擴散變壓器這一模型。
<h4> 擴散變壓器的概念和運行</h4>
多數現代 AI 媒體生成器,包括 OpenAI 的 DALL-E 3,在輸出影象、影片、語音、音樂、3D 網格以及藝術品時,都依賴一個叫做擴散的過程。這個概念並不是最直觀的,但基本上,是透過將噪音逐步新增到一個媒體片段(例如影象)中,直到它變得難以辨識。這個過程不斷重複,以建立一個充滿噪音的媒體資料集。當一個擴散模型在這個資料上訓練時,它學會逐步去除噪音,逐步接近目標輸出的媒體片段(例如新影象)。擴散模型通常有一個稱為 U-Net 的主幹,它學會估計需要去除的噪音,並且做得很好。但 U-Net 復雜,帶有特殊設計的模組,可能會大大減緩擴散管道的速度。值得慶幸的是,變壓器可以取代 U-Net,並在此過程中帶來效率和效能的提升。
<h4> 變壓器的關鍵作用</h4>
變壓器是用於複雜推理任務的首選架構,為 GPT-4、Gemini 和 ChatGPT 等模型提供動力。它們有幾個獨特的特點,但遠不止它們的「注意機制」最為重要。對於每個輸入資料(在擴散的情況下是影象噪音),變壓器權衡了每個其他輸入的相關性(影象中的其他噪音),並從中獲取訊息來生成輸出(影象噪音的估計)。注意機制不僅使得變壓器比其他模型架構更簡單,而且使得該架構可進行平行處理。換句話說,可以用更大的變壓器模型進行訓練,並且在計算上會有顯著但不過分的增加。
<h3> 希望與挑戰</h3>
謝賽寧認為擴散變壓器應該是現有擴散模型的簡單替換,無論該模型是生成影象、影片、音訊還是其他形式的媒體。當前擴散變壓器的訓練過程可能會引入一些低效性和效能損失,但謝賽寧認為這可以在長期內得到解決。他表示:“主要的觀點很簡單:忘記 U-Net,改用變壓器,因為它們更快、工作更好、更具擴充套件性。我對在擴散變壓器框架中整合內容理解和創造領域很感興趣。當前這些領域就像是兩個不同的世界——一個用於理解,一個用於建立。我期許未來能夠將這些方面整合在一起,我相信實現這種整合需要對底層架構進行標準化,而變壓器是這個目的的理想候選。”
<h2> 結論</h2>
Sora 和 Stable Diffusion 3.0 是否代表了擴散變壓器的未來發展方向?這一突破性的技術是否將改變我們所理解的人工智慧應用?這些問題值得我們深入思考,並密切關注相關領域的發展動態。無論如何,擴散變壓器的應用絕對是人工智慧領域的一個重要進步,將為我們帶來更多挑戰和機遇。</div><div>Technology-OpenAISora,Diffusion 變壓器,人工智慧,技術革新,機器學習,開放人工智慧,</div>
延伸閱讀
- 加州新 AI 法案出爐,SB 1047 作者再推出改革措施!
- 《超級瑪利歐成為 AI 基準測試的新標準!你絕對想不到的理由》
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 安瑟普提克獲得 35 億美元巨額資金 瞄準人工智慧未來!
- 「Opera 推出全新 AI 代理:瀏覽器內建智慧助理的革命性體驗!」
- OpenAI 重磅推出 GPT-4.5:歷史上最大的語言模型來了!
- 探索 DeepSeek:你必須理解的 AI 聊天機器人應用全指南!
- OpenAI 的創業帝國:揭密其風投基金背後的諸多創新公司
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 未來科技:研究人員揭示如何打造變形機器人,猶如 T-1000 般神奇!