網路議題

機器學習模型 I-JEPA:從影象中學習高層抽象概念

Meta 發布首個版本的 I-JEPA:深度學習模型開始實現無人協助自我學習的世界模型引言 Meta 最近發布了第一個版本的 I-JEPA,這是一個機器學習模型,透過對影象進行自我監督學習,學習世界的抽象表示。此模型在許多計算機視覺任務上表現出色,並且比其他最先進的模型更高效,訓練所需的計算資源只需十 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

機器學習模型 I-JEPA:從影象中學習高層抽象概念

Meta 發布首個版本的 I-JEPA:深度學習模型開始實現無人協助自我學習的世界模型

引言

Meta 最近發布了第一個版本的 I-JEPA,這是一個機器學習模型,透過對影象進行自我監督學習,學習世界的抽象表示。此模型在許多計算機視覺任務上表現出色,並且比其他最先進的模型更高效,訓練所需的計算資源只需十分之一。

自我監督學習

自我監督學習的思想受到人類和動物學習方式的啟發。我們在觀察世界時獲取了很多知識,同樣,人工智慧系統應該能夠透過自身的觀察來學習,而不需要人為標記訓練資料。自我監督學習在一些人工智慧領域,包括生成模型和大型語言模型上取得了巨大的突破。2022 年,LeCun 提出了一種名為"joint predictive embedding architecture"(JEPA)的自我監督模型,該模型可以學習世界模型和重要知識,如常識。

I-JEPA 的區別

I-JEPA 是根據 LeCun 提出的架構進行的影象實現。它透過使用 Vision Transformer(ViT)對現有訊息進行編碼,該模型是一種在語言模型中使用的 Transformer 架構的變體,經過修改以適應影象處理。然後,它將這些訊息作為上下文傳遞給一個預測器 ViT,該預測器為缺失的部分生成語義表示。該模型透過生成模型建立了從 I-JEPA 預測的語義資料到草圖之間的轉換。研究結果表明,I-JEPA 的抽象與場景的實際情況相符。

I-JEPA 的應用

儘管 I-JEPA 無法生成照片般逼真的影象,但它在機器人和自動駕駛等領域具有許多應用,其中人工智慧代理必須能夠理解其環境並處理幾種高度可能的結果。I-JEPA 的一個明顯好處是它的記憶體和計算效率。預訓練階段不需要其他自我監督學習方法中使用的計算密集型資料增強技術。研究人員只需要在不到 72 小時內使用 16 個 A100 GPU 訓練一個 6.32 億引數的模型,這僅需其他技術的十分之一。他們的實驗結果表明,I-JEPA 在計算機視覺任務(如分類、物體計數和深度預測)上只需要很少的微調就能勝過其他最先進的模型。由於網路上存在大量未標註的資料,像 I-JEPA 這樣的模型可以為以前需要大量手動標註資料的應用程式提供巨大的價值。

結論

Meta 的 I-JEPA 提供了一個令人期待的機器學習模型,透過自我監督學習的方式學習世界的抽象表示。該模型在計算機視覺任務上表現出色,同時具有更高的效率和更少的計算資源需求。未來,這樣的模型可能在機器人技術、自動駕駛等領域有著廣泛的應用前景。然而我們也需要關注這些模型使用未標註資料的潛在問題,包括資料的品質和模型的偏見問題。這需要更多的研究和討論,並且需要制定相應的監管和政策措施,以確保這些機器學習系統的適當使用。

Unsplash gallery keyword: Artificial Intelligence-機器學習,模型,I-JEPA,影象,高層抽象概念
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。