
Reka 宣布推出多模態 AI 助手 Yasa-1,挑戰 OpenAI 的 ChatGPT
簡介
Reka 是由 DeepMind、Google、百度和 Meta 的研究人員共同創立的人工智慧新創公司。他們近日宣布推出 Yasa-1,一款多模態 AI 助手,能夠理解影象、短影片和音訊片段,使用私有資料集進行定制化,助企業構建廣泛應用的全新體驗。該助手支援 20 種不同的語言,並且可以從網際網路上提供上下文相關的答案,處理長檔案並執行程式碼。Yasa-1 直接與 OpenAI 的 ChatGPT 競爭,後者最近也進行了多模態升級,支援視覺和音訊提示。
多模態能力
Yasa-1 透過 API 和基於 Docker 容器的部署方式提供,利用 Reka 訓練的單一統一模型實現多模態理解。它不僅能理解文字和短語,還能理解影象、音訊和短影片。這種能力使使用者能夠將傳統的基於文字的提示與多媒體檔案結合起來,獲得更具體的答案。例如,可以用一張產品圖片來提示 Yasa-1 生成一篇促銷社交媒體帖子,或者用它來檢測特定的聲音和其來源。Reka 表示該助手甚至可以識別影片中正在發生的事情,包括討論的主題,並預測主題可能會做什麼。這種理解能力在影片分析中非常有用,但技術上仍存在一些問題。公司在一篇博文中寫道:“對於多模態任務,Yasa 在提供影象、影片或音訊內容的高級描述方面表現出色。然而在沒有進一步定制的情況下,它對多模態媒體的細節理解能力有限。對於當前版本,我們建議音訊或影片片段不要超過一分鍾,以獲得最佳體驗。”另外公司還指出,像大多數 LLM(語言模型)一樣,該模型也會產生幻覺,不能完全依賴它提供關鍵建議。
其他功能
除了多模態能力,Yasa-1 還帶來了其他一些功能。它支援 20 種不同的語言,處理長檔案的能力以及主動執行程式碼的能力(僅限部署在本地環境)。透過一個簡單的標志,使用者可以讓 Yasa 自動識別響應中的程式碼塊,執行程式碼,並在程式碼塊末尾附上結果。此外使用者還可以選擇將最新的網路內容整合到 Yasa-1 的答案中。透過另一個標志,助手可以實時存取各種商業搜尋引擎,使用最新的訊息,不受截止日期的約束。值得注意的是,ChatGPT 最近也使用了新的基礎模型 GPT-4V 來實現同樣的功能。不過對於 Yasa-1 來說Reka 指出,助手並不保證能獲取與特定查詢相關的最相關檔案作爲引用。
展望
未來幾周,Reka 計劃讓更多企業使用 Yasa-1,並努力改進助手的能力,同時解決其中的約束。公司表示:“我們爲能夠擁有同類計算能力中最佳模型感到自豪,但我們只是剛剛開始。Yasa 是一款具備多模態能力的生成性智慧體。這是我們遠期使命的第一步,我們的目標是構建一個未來,使超智慧人工智慧成爲一個有益的力量,與人類一起解決重大挑戰。”雖然有來自 Meta 和 Google 等公司的研究人員核心團隊可以給 Reka 帶來一定的優勢,但值得注意的是,該公司在人工智慧領域還非常年輕。他們才在三個月前解除了僞裝,在 DST Global Partners、Radical Ventures 和多個天使投資者的支援下獲得了 5800 萬美元的融資。他們面臨着微軟支援的 OpenAI 和亞馬遜支援的 Anthropic 等資金雄厚的競爭對手。其他值得一提的競爭對手包括 Inflection AI(已籌集了近 15 億美元)和 Adept(已籌集了 4.15 億美元)。
(本文來源:VentureBeat)
延伸閱讀
- OpenAI 計劃將 Sora 影片生成器整合至 ChatGPT,開啟創意新視界!
- 「深入解析!ChatGPT 收費全攻略:你需要知道的一切」
- 「OpenAI 為付費 ChatGPT 使用者推出深度研究功能,探索智慧對話的新境界!」
- OpenAI 努力破解 ChatGPT 的約束,帶你進入無阻礙的對話世界!
- OpenAI 解除 ChatGPT 部分內容警告,背後原因大揭祕!
- ChatGPT 該不該被視為節能型 AI?最新研究揭示其能耗真相!
- 「無需登入,ChatGPT 網頁搜尋功能全新上線!」
- 「ChatGPT 產品負責人將在美國政府對抗 Google 的案件中作證!」
- 《徹底解析 ChatGPT:你必須知道的 AI 聊天機器人一切!》
- 「ChatGPT 全新功能上線!使用者可自定義特質如‘健談’與‘Z 世代’」