Deepmind 公佈 RT-2:進一步提升機器人自主學習能力的新一代模型
RT-2 的獨特之處
Deepmind 宣布了新一代機器人模型 RT-2,這是首個具有視覺-語言-行動(VLA)功能的模型,可以使機器人在沒有具體訓練的情況下執行新的任務。就像語言模型從網路資料學習一般的概念和觀念一樣,RT-2 使用來自網路的文字和影象來理解現實世界中的不同概念,並將這些知識轉化為機器人行動的通用指令。當這項技術得到改進,它將可以實現具有上下文感知和適應性的機器人,在不同情況和環境下執行不同任務,而無需當前所需的大量訓練。
RT-2 的最大亮點在於,與 RT-1 和其他模型不同,它不需要數十萬條資料點就能使機器人執行。長期以來,組織一直認為對複雜、抽象任務的處理需要具體的機器人訓練(包括對每個物體、環境和情況的覆蓋),這種訓練至關重要。但在這種情況下,RT-2 透過少量的機器人資料學習從事基礎模型中可見的複雜推理,並將所獲知識轉化為直接的機器人行動——即使是對其從未見過或訓練過的任務。
據 Google 解釋,"RT-2 展示了改進的泛化能力和對機器人資料以外的語義和視覺理解,包括解釋新的指令、根據物件類別或高層次描述進行初步推理等。"
RT-2 的潛在應用
當像 RT-2 這樣的先進視覺-語言-行動模型得到進一步發展時,將能夠實現上下文感知的機器人。這些機器人可以根據當前情況在現實世界中進行推理、解決問題和解讀訊息,執行各種不同的行動。例如,在倉庫中,企業可以看到機器能夠根據物體的型別、重量、脆弱性等因素,在處理每個物體時採取不同的方式,而不是執行相同的重複性動作。
據 Markets and Markets 報告,AI 驅動機器人領域預計從 2021 年的 69 億美元增長到 2026 年的 353 億美元,預計年複合增長率為 38.6%。因此 RT-2 這樣的技術具有巨大的商業應用潛力。
編者評論和建議
Deepmind 的 RT-2 模型的突破讓我們看到了機器人技術的潛力。這種具有視覺-語言-行動能力的模型不僅可以提高機器人的智慧程度,還可以大大減少訓練所需的時間和資料量。
然而我們也必須牢記,使用這樣的模型還存在一些問題和風險。首先是資料的收集和使用問題,這需要我們非常謹慎地平衡隱私和創新的衝突。其次是模型的準確性和安全問題,我們需要確保這樣的模型不會因為誤判或被攻擊而導致危險的結果。
在探索和應用 RT-2 這樣的技術時,我們建議政府、企業和學術界之間加固合作,制定相應的監管框架和道德準則,以確保這種技術的安全性和可持續發展。
延伸閱讀
- 柏林科技企業 trawa 籌得 1 千萬歐元,運用人工智慧協助中小企業更輕鬆購買可再生能源
- Google 將在 YouTube 學術影片中推出人工智慧生成的測驗
- Google 在 I/O 主題演講中提到「AI」超過 120 次
- 在人工智慧電影節上,人性戰勝科技
- AI 推動社會變革,女性呈現關鍵力量
- 開放 AI (OpenAI)的 ChatGPT 新聞發布:我們當前所知道的事情
- OpenAI 考慮允許 AI 色情內容?
- AI 晶片新創 DEEPX 以 5.29 億美元估值成功籌得 8000 萬美元 C 輪融資
- Fairgen「提振」調查結果,利用合成資料和人工智慧生成的回應
- 用 Retell AI 讓公司打造「語音代理人」來應答電話