澳洲國立大學、牛津大學和北京人工智慧研究院的研究人員開發出一個名為「3D-GPT」的新 AI 系統,可以根據使用者提供的文字描述來生成 3D 模型。
這個系統在一篇發表在 arXiv 上的論文中被描述為相較於傳統的 3D 建模工作流程,提供了一種更高效和直觀的生成 3D 資產的方式。根據該論文,3D-GPT 能夠「將程式性 3D 建模任務分解為可操作的片段,並為每個任務指定合適的智慧體」。這個系統利用多個智慧體,每個智慧體專注於理解文字提示的不同部分並執行建模功能。
鉅細無遺的生成 3D 模型
3D-GPT 包含多個關鍵智慧體,其中包括一個「任務指派智慧體」,用於解析文字指令;一個「概念化智慧體」,用於新增初始描述中遺漏的細節;和一個「建模智慧體」,用於設定引數並生成驅動 3D 軟體(如 Blender)的程式碼。透過將建模過程拆分並指派專業的智慧體,3D-GPT 能夠解讀文字提示,進一步將描述增強為更詳細的形式,最終生成與使用者設想一致的 3D 資產。根據論文的解釋,它能夠「根據後續指令的動態調整,提升簡潔的初始場景描述」。
研究人員在一些文字提示上進行了測試,例如「一個濕潤的春天早晨,在一片青翠的草地上點綴著濕漉漉的花朵,四周是新芽遍地的樹木」。3D-GPT 能夠生成完整的具有逼真圖形的 3D 場景,準確地反映了文字中描述的元素。儘管圖形的質量還不完全逼真,但初步結果表明這種基於智慧體的方法在簡化 3D 內容創作方面具有潛力。模組化架構還可以使每個智慧體元件獨立改進。研究人員寫道:「我們的實驗研究證實,3D-GPT 不僅可以解釋和執行指令,提供可靠的結果,而且還能與人類設計師有效地協作」。
為 3D 建模提供靈活的基礎
3D-GPT 透過生成控制現有 3D 軟體的程式碼,而不是從頭開始建模,為未來的建模技術提供了靈活的基礎。研究人員得出結論,他們的系統「展示了大型語言模型在 3D 建模方面的潛力,為未來場景生成和動畫方面的進一步發展提供了基本框架」。這項研究可能會革命化 3D 建模行業,使其過程更高效和易於使用。隨著我們進一步進入元宇宙時代,而 3D 內容創作擔任著催化劑,像 3D-GPT 這樣的工具可能對許多行業的創作者和決策者都非常有價值,從遊戲和虛擬現實到電影和多媒體體驗。
3D-GPT 框架當前仍處於早期階段,存在一些約束,但它的開發標誌著人工智慧驅動的 3D 建模向前邁出了重要的一步,為未來的技術發展開拓了令人興奮的可能性。