
Google's Deepmind 公佈 RT-2: 沒有具體訓練的情況下,讓機器人執行新任務
RT-2:首個視覺-語言-行動模型
Google 的 Deepmind 宣布了一項前所未有的視覺-語言-行動(VLA)模型,名為 Robotics Transformer 2(RT-2),它能夠使機器人在沒有具體訓練的情況下執行新任務。就像語言模型從網路資料學習普遍的想法和概念一樣,RT-2 使用來自網路的文字和影象來理解不同的現實概念,並將這些知識轉化為機器人行動的廣義指令。將來,這項技術的改進可能會導致具有上下文感知性和適應性的機器人,在不同情況和環境中執行不同任務所需的訓練大幅減少。
RT-2 的獨特之處
Deepmind 於 2022 年推出了 RT-1,這是一個多工模型,透過訓練了 13 萬次展示,使得 Everyday Robots 能夠以 97%的成功率執行 700 多個任務。現在使用 RT-1 的機器人展示資料和網路資料集,該公司訓練了 RT-2 模型的繼任者。
RT-2 最大的亮點是,與 RT-1 和其他模型不同,它不需要數十萬個資料點才能使機器人常規執行。長期以來,組織一直認為對於在高度變化的環境中處理複雜而抽象的任務,特定的機器人訓練(包括涵蓋每個物件、環境和情境)至關重要。然而在這種情況下,RT-2 透過少量機器人資料學習執行基礎模型中顯示的複雜推理,並將所獲知識轉移至直接的機器人行動,即使對於它以前從未見過或訓練過的任務也是如此。Google 解釋說:“RT-2 展示了更好的泛化能力以及在接觸到機器人資料之外,對語義和視覺的理解。”這包括解釋新指令並根據高級描述進行基礎推理,比如關於物件類別的推理或高水平的描述。
無需訓練即可採取行動
根據 Google DeepMind 的機器人主管 Vincent Vanhoucke 的說法,以前訓練機器人清理垃圾意味着必須明確訓練機器人識別垃圾以及將其拾起並扔掉。但是對於 RT-2 來說它是透過網路資料訓練的,因此不再需要這樣的訓練。模型已經對垃圾是什麼有一個普遍的概念,可以在沒有明確訓練的情況下識別垃圾。它甚至知道如何扔掉垃圾,盡管它從未接受過執行這個動作的訓練。
在內部測試中,RT-2 在處理已經見過的任務時表現和 RT-1 一樣好。然而在新的、未知的情境下,RT-2 的效能從 RT-1 的 32%提高到 62%。
潛在應用
當像 RT-2 這樣的先進的視覺-語言-行動模型改進後,將能夠實現具有上下文感知的機器人,它們能夠根據所處情況在現實世界中進行推理、問題解決和訊息解釋,執行各種不同的行動。例如,在倉庫中,企業可以看到這樣的機器,它們可以根據物件的型別、重量、易碎性和其他因素,以不同方式處理每個物件,而不是只執行相同的重複動作。
根據 Markets and Markets 的報告,人工智慧驅動的機器人領域預計從 2021 年的 69 億美元增長到 2026 年的 353 億美元,預計年均複合增長率為 38.6%。
結論
Google Deepmind 的 RT-2 模型透過結合文字和影象從網路中學習,使機器人能夠在沒有特定訓練的情況下執行新任務,這是一項具有裏程碑意義的技術突破。這項技術的進一步發展將為上下文感知、適應性強的機器人的實現帶來可能,它們能夠根據情況在現實世界中執行不同的任務。然而我們也需要注意模型的準確性和能力在面對新的、未知情境時的不足。對這一領域的研究和發展的投資以及對模型的持續改進將是實現機器人智慧的關鍵。
延伸閱讀
- AI 與影片履歷助力初入職場的新鮮人找到工作!
- OpenAI 的創意寫作 AI 讓人想起高中文學社那個討人厭的孩子
- 亞馬遜成立新型代理 AI 團隊,將如何改變科技未來?
- 「搶先報名!TechCrunch Sessions: AI 演講者申請截止日期迫在眉睫!」
- MWC 最新報導:AI 影響力的兩極化觀點首次曝光!
- HackerPulse 助力企業識別工程瓶頸,提升效率的祕密武器!
- 亞馬遜新推出 Alexa+:為孩子們帶來 AI 驅動的「探索」與「故事」新功能!
- Bridgetown Research 載著 AI 助力,成功募資 1900 萬美元加速盡職調查!
- Nomagic 獲得 4400 萬美元資金,AI 驅動的機器手臂技術將改變未來!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!