DeepMind 揭示自我訓練機器貓 RoboCat
引言
在 Google 的 DeepMind,研究人員最近將人工智慧與一個名為 RoboCat 的機器人結合在一起。雖然 RoboCat 尚未統治網際網路,但預計它將跨越一個充滿自我訓練機械人的未來世界的巨大跳躍。利用大型語言模型背後的相同技術,DeepMind 團隊由 30 多名研究人員組成,表示他們在一個機器貓中取得了突破,該貓不僅可以迅速學習新任務,還可以透過構建自己的效能資料來改善自己的表現。
自我訓練
按照 DeepMind 在 arXiv 上發表的論文《RoboCat:一個自我改進的基礎代理人用於機器人操作》,RoboCat 具有一個訓練的良性迴圈。它學習的新任務越多,它在學習其他新任務時就變得越好。到當前為止,機器人通常執行特定的、預先程式設計的任務。隨著大型語言模型的引入,機器人的技能範圍開始擴大,儘管訓練所需的大量資料需要大量的時間。然而 DeepMind 表示 RoboCat 可以迅速學習新的任務,例如將不同形狀的拼圖片段放入正確的插孔或將水果放入碗中。然後,它能夠在以前的任務和新生成的資料的"數百萬個軌跡"資料集的基礎上進一步進行更複雜的任務。研究人員表示:“這些改進源於 RoboCat 經驗的增加,就像人們在深化特定領域學習時發展出更多樣化的技能一樣。”
對機器貓的測試與改進
在機器貓改善其技巧之際,它學到的新行為將被轉移到其他機器人身上,這些機器人又在其基礎上進一步建立技能。該機器人透過人控制的機械臂對 100 到 1,000 個示範進行了效能微調。然後,特定任務的衍生模型接受培訓,將資料輸入通用指令池中。雖然 RoboCat 最初在未曾學習過的任務中取得了 36%的成功率,但它隨著時間的推移改善了自己的表現。透過自我訓練,成功率翻了一倍。DeepMind 的研究人員表示:“RoboCat 的學習速度比其他最先進的模型快得多,因為它從一個大而多樣的資料集中獲取知識,所以它只需要 100 個示範就能學會一個新的任務。”
加速機器人研究的重要一步
這一發展被視為加速機器人研究的重要一步,因為它減少了對人類監督訓練的需求,並且是創造一個通用機器人的重要一步。據 6 月 20 日發表的論文《RoboCat:一個自我改進的基礎代理人用於機器人操作》顯示,它減少了對人類監督訓練的需求,並且是創造一個通用機器人的重要一步。
人機互動的未來
這項技術的發展讓我們不禁問一個問題:這樣的機器人最終是否會取代人類的幹預?這個問題在 100 年前的 1921 年戲劇《R.U.R.:羅塞姆的通用機器人》中得到了回答。這個由捷克作家卡雷爾·瓦切克創作的故事設想了一個不斷工作並最終使勞動成本減少 80%的合成人類工廠。該劇首次使用了“機器人”一詞,源自捷克語的“robota”,意為“農奴的強制勞役”。最終機器人起來反抗並滅絕了人類。我們可以希望 RoboCats 將更友善一點。儘管如此我們也必須記住幽默作家威爾·羅傑斯曾說過:“讓貓從袋子裡跑出來要容易得多,而把它塞回去則更艱難。”
結論
DeepMind 揭示了一個具有自我訓練能力的機器貓 RoboCat,它能夠快速學習新任務並改進自己的表現。這個突破意味著機器人研究的加速,並帶來了創造通用機器人的重要一步。然而我們也需要謹慎地考慮人機互動的未來,以免重蹈歷史的覆轍。
延伸閱讀
- 微軟人工智慧進軍倫敦,由前 Inflection 和 Deepmind 科學家 Jordan Hoffmann 領軍的新據點
- AI 影片生成競爭升溫:Deepmind 前員工推出 Haiper
- DeepMind 釋出最新 AI,能夠解決幾何問題
- 本週 AI 新聞:我們能相信 DeepMind 是個道德的嗎?
- DeepMind UniSim:模擬現實訓練機器人與遊戲角色
- DeepMind 的「非凡」新人工智慧掌控各種機器人
- DeepMind 研發的「驚人」新人工智慧掌控各式機器人
- DeepMind 聯合創辦人對於 AI 的「自以為是」評論感到厭倦
- LLMs 驚人地擅長壓縮影象和音訊,DeepMind 研究人員發現
- DeepMind 發現 AI 大型語言模型能夠最佳化自身提示