Google's Deepmind 公佈 RT-2: 沒有具體訓練的情況下,讓機器人執行新任務
RT-2:首個視覺-語言-行動模型
Google 的 Deepmind 宣布了一項前所未有的視覺-語言-行動(VLA)模型,名為 Robotics Transformer 2(RT-2),它能夠使機器人在沒有具體訓練的情況下執行新任務。就像語言模型從網路資料學習普遍的想法和概念一樣,RT-2 使用來自網路的文字和影象來理解不同的現實概念,並將這些知識轉化為機器人行動的廣義指令。將來,這項技術的改進可能會導致具有上下文感知性和適應性的機器人,在不同情況和環境中執行不同任務所需的訓練大幅減少。RT-2 的獨特之處
Deepmind 於 2022 年推出了 RT-1,這是一個多工模型,透過訓練了 13 萬次展示,使得 Everyday Robots 能夠以 97%的成功率執行 700 多個任務。現在使用 RT-1 的機器人展示資料和網路資料集,該公司訓練了 RT-2 模型的繼任者。 RT-2 最大的亮點是,與 RT-1 和其他模型不同,它不需要數十萬個資料點才能使機器人常規執行。長期以來,組織一直認為對於在高度變化的環境中處理複雜而抽象的任務,特定的機器人訓練(包括涵蓋每個物件、環境和情境)至關重要。然而在這種情況下,RT-2 透過少量機器人資料學習執行基礎模型中顯示的複雜推理,並將所獲知識轉移至直接的機器人行動,即使對於它以前從未見過或訓練過的任務也是如此。Google 解釋說:“RT-2 展示了更好的泛化能力以及在接觸到機器人資料之外,對語義和視覺的理解。”這包括解釋新指令並根據高級描述進行基礎推理,比如關於物件類別的推理或高水平的描述。無需訓練即可採取行動
根據 Google DeepMind 的機器人主管 Vincent Vanhoucke 的說法,以前訓練機器人清理垃圾意味着必須明確訓練機器人識別垃圾以及將其拾起並扔掉。但是對於 RT-2 來說它是透過網路資料訓練的,因此不再需要這樣的訓練。模型已經對垃圾是什麼有一個普遍的概念,可以在沒有明確訓練的情況下識別垃圾。它甚至知道如何扔掉垃圾,盡管它從未接受過執行這個動作的訓練。 在內部測試中,RT-2 在處理已經見過的任務時表現和 RT-1 一樣好。然而在新的、未知的情境下,RT-2 的效能從 RT-1 的 32%提高到 62%。潛在應用
當像 RT-2 這樣的先進的視覺-語言-行動模型改進後,將能夠實現具有上下文感知的機器人,它們能夠根據所處情況在現實世界中進行推理、問題解決和訊息解釋,執行各種不同的行動。例如,在倉庫中,企業可以看到這樣的機器,它們可以根據物件的型別、重量、易碎性和其他因素,以不同方式處理每個物件,而不是只執行相同的重複動作。 根據 Markets and Markets 的報告,人工智慧驅動的機器人領域預計從 2021 年的 69 億美元增長到 2026 年的 353 億美元,預計年均複合增長率為 38.6%。結論
Google Deepmind 的 RT-2 模型透過結合文字和影象從網路中學習,使機器人能夠在沒有特定訓練的情況下執行新任務,這是一項具有裏程碑意義的技術突破。這項技術的進一步發展將為上下文感知、適應性強的機器人的實現帶來可能,它們能夠根據情況在現實世界中執行不同的任務。然而我們也需要注意模型的準確性和能力在面對新的、未知情境時的不足。對這一領域的研究和發展的投資以及對模型的持續改進將是實現機器人智慧的關鍵。ArtificialIntelligence-Deepmind,AI,RT-2,機器人,祕密武器
延伸閱讀
- OpenAI 考慮允許 AI 色情內容?
- 獨家專訪:Wayve 聯合創始人 Alex Kendall 談車輛和機器人的自主未來
- 突破獨家訪談:Wayve 共同創辦人 Alex Kendall 談自動駕駛汽車和機器人的未來
- 資料科技公司 Daloopa 開發 AI 以自動化財務分析工作
- 今年的 Met Gala 主題是 AI 極深假裝
- Y Combinator 幫助醫療記錄 AI 新創 Hona 募得 300 萬美元 的故事
- Pinterest AI 打造的拼貼圖比單張針腳更吸睛
- Atlassian 推出新的 AI 同事 Rovo
- 三星的營運利潤飆升 930%,AI 動能帶動記憶晶片需求
- GitHub 推出 Copilot Workspace:AI 驅動的軟體工程空間