
Meta 發布首個版本的 I-JEPA:深度學習模型開始實現無人協助自我學習的世界模型
引言
Meta 最近發布了第一個版本的 I-JEPA,這是一個機器學習模型,透過對影象進行自我監督學習,學習世界的抽象表示。此模型在許多計算機視覺任務上表現出色,並且比其他最先進的模型更高效,訓練所需的計算資源只需十分之一。
自我監督學習
自我監督學習的思想受到人類和動物學習方式的啟發。我們在觀察世界時獲取了很多知識,同樣,人工智慧系統應該能夠透過自身的觀察來學習,而不需要人為標記訓練資料。自我監督學習在一些人工智慧領域,包括生成模型和大型語言模型上取得了巨大的突破。2022 年,LeCun 提出了一種名為"joint predictive embedding architecture"(JEPA)的自我監督模型,該模型可以學習世界模型和重要知識,如常識。
I-JEPA 的區別
I-JEPA 是根據 LeCun 提出的架構進行的影象實現。它透過使用 Vision Transformer(ViT)對現有訊息進行編碼,該模型是一種在語言模型中使用的 Transformer 架構的變體,經過修改以適應影象處理。然後,它將這些訊息作為上下文傳遞給一個預測器 ViT,該預測器為缺失的部分生成語義表示。該模型透過生成模型建立了從 I-JEPA 預測的語義資料到草圖之間的轉換。研究結果表明,I-JEPA 的抽象與場景的實際情況相符。
I-JEPA 的應用
儘管 I-JEPA 無法生成照片般逼真的影象,但它在機器人和自動駕駛等領域具有許多應用,其中人工智慧代理必須能夠理解其環境並處理幾種高度可能的結果。I-JEPA 的一個明顯好處是它的記憶體和計算效率。預訓練階段不需要其他自我監督學習方法中使用的計算密集型資料增強技術。研究人員只需要在不到 72 小時內使用 16 個 A100 GPU 訓練一個 6.32 億引數的模型,這僅需其他技術的十分之一。他們的實驗結果表明,I-JEPA 在計算機視覺任務(如分類、物體計數和深度預測)上只需要很少的微調就能勝過其他最先進的模型。由於網路上存在大量未標註的資料,像 I-JEPA 這樣的模型可以為以前需要大量手動標註資料的應用程式提供巨大的價值。
結論
Meta 的 I-JEPA 提供了一個令人期待的機器學習模型,透過自我監督學習的方式學習世界的抽象表示。該模型在計算機視覺任務上表現出色,同時具有更高的效率和更少的計算資源需求。未來,這樣的模型可能在機器人技術、自動駕駛等領域有著廣泛的應用前景。然而我們也需要關注這些模型使用未標註資料的潛在問題,包括資料的品質和模型的偏見問題。這需要更多的研究和討論,並且需要制定相應的監管和政策措施,以確保這些機器學習系統的適當使用。
延伸閱讀
- Google 推出 SpeciesNet:專為識別野生動物而設的人工智慧模型!
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!
- 探索 Microsoft Copilot:你必須知道的 AI 技術全解析!
- OpenAI 揭開 o3-mini 模型思考過程的神祕面紗!
- 「MLCommons 與 Hugging Face 聯手推出龐大語音資料集,助力 AI 研究新境界!」
- 印度讚揚中國 AI 實驗室 DeepSeek,計劃將其模型本地化伺服器託管!
- 深度探索聲稱其推理模型在特定基準測試中超越 OpenAI 的 o1!
- 《徹底解析 ChatGPT:你必須知道的 AI 聊天機器人一切!》
- OpenAI AI 推理模型竟然會「用中文思考」,背後原因成謎!