網路議題

與 OpenAI 的「多模態」GPT-4V 相遇——兩款開源挑戰者

開放原始碼挑戰者:GPT-4V 的兩個多模態模型撰稿人:OpenAI 的 GPT-4V 被譽為人工智慧領域的下一個重大突破,它是一個可以理解文字和影象的「多模態」模型。這個模型具有明顯的實用性,所以一對開放原始碼專案也發布了類似的模型。然而這些模型面臨的挑戰也更加困難。以下是這兩個模型的詳細對比。多 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

與 OpenAI 的「多模態」GPT-4V 相遇——兩款開源挑戰者

開放原始碼挑戰者GPT-4V 的兩個多模態模型

撰稿人:

OpenAI 的 GPT-4V 被譽為人工智慧領域的下一個重大突破,它是一個可以理解文字和影象的「多模態」模型。這個模型具有明顯的實用性,所以一對開放原始碼專案也發布了類似的模型。然而這些模型面臨的挑戰也更加困難。以下是這兩個模型的詳細對比。

多模態模型的應用和風險

多模態模型可以做到傳統的文字或影象分析模型所無法做到的事情。例如,GPT-4V 可以提供更容易展示而非解釋的指令,例如修理腳踏車。並且由於多模態模型不僅可以識別影象中的物體,還可以推斷並理解其內容(至少在某種程度上),它們可以超越明顯的內容,例如根據影象中的冰箱內的食材提供食譜建議。然而多模態模型也帶來了新的風險。OpenAI 最初推遲了 GPT-4V 的發布,出於對它可能被用於未經同意或知情下識別影象中的人物的擔憂。即使現在 GPT-4V 仍然存在令人擔憂的缺陷,包括無法識別仇恨符號以及對某些性別、人口統計和體型的歧視。這些問題甚至是 OpenAI 自己提到的!

開放選擇

儘管存在風險,但許多公司和獨立開發者正在積極推進並發布開源多模態模型。儘管這些模型的能力不及 GPT-4V,但它們可以實現許多甚至大部分相同的功能。本月初,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究團隊發布了 Llava-1.5(即「Large Language-and-Vision Assistant」的縮寫),它對影象的問題作答能力與 GPT-4V 相似,例如對「這張圖片有什麼不尋常之處?」和「在這裡參觀時應該注意什麼?」等提示進行回答。Llava-1.5 在 Qwen-VL 和 Google 的 PaLI-X 和 PaLM-E 之後推出,成為其中一個首款可以在消費型硬體上執行的多模態模型——只需要擁有少於 8GB VRAM 的 GPU 即可。

此外一家名為 Adept 的新創公司也公開了一個 GPT-4V 樣式的多模態文字和影象模型,但有所不同。Adept 的這個模型可以理解包含圖表、統計圖和螢幕截圖等「知識工作者」資料,使其能夠操作和推理這些資料。這樣的模型使得 Adept 可以構建能夠自主地在軟體和網路上導航的 AI 模型。

Llava-1.5:一種易於使用的多模態模型

Llava-1.5 是由一支與微軟聯絡密切的研究團隊幾個月前發布的 Llava 模型的改進版本。與 Llava 一樣,Llava-1.5 結合了一個名為「視覺編碼器」的元件和基於 Meta 公司的 Llama 模型的 Vicuna,以理解影象和文字及其聯動。最初的 Llava 團隊使用 OpenAI 的 ChatGPT 和 GPT-4 的文字版本生成了該模型的訓練資料。他們提供了影象描述和後設資料,以提示這些模型根據影象內容建立對話、問題、答案和推理問題。Llava-1.5 團隊進一步增加了影象解析度,並將 Llava 的訓練資料集中加入了 ShareGPT 的資料,該平臺允許使用者共享與 ChatGPT 的對話。

兩個可用的 Llava-1.5 模型中,較大的模型含有 130 億個引數,可以在一天內使用 8 個 Nvidia A100 GPU 進行訓練,伺服器成本約為幾百美元。(引數是從歷史訓練資料中學到的模型的部分,基本上定義了模型在解決問題時的能力,例如生成文字)這並不便宜,但考慮到據報道 OpenAI 花費數千萬美元來訓練 GPT-4,這無疑是朝著正確的方向邁出的一步。當然前提是模型的表現足夠好。Roboflow 的軟體工程師詹姆斯·加拉格爾和皮奧特爾·斯卡爾斯基最近對 Llava-1.5 進行了測試,並在一篇博文中詳細介紹了結果。

首先他們測試了模型的「零樣本」物件檢測能力,也就是說它能否識別它沒有被明確訓練過的物體。他們要求 Llava-1.5 在一張影象中檢測狗,令人印象深刻的是,它成功地做到了這一點,甚至指出了在影象中它「看到」狗的位置。接著,加拉格爾和斯卡爾斯基進行了一個更難的測試,即要求模型解釋一個迷因。由於迷因具有雙重含義、雙關語、內鬥祕語和潛在意義,它們對於多模態模型進行上下文理解和分析是有用的基準。他們給 Llava-1.5 提供了一張圖片,圖片中有一個人熨燙衣物的照片被 PS 到一輛黃色的計程車的後面。他們問 Llava-1.5:“這張圖片有什麼不尋常之處?”模型給出了答案:“在街道中央的計程車後面熨燙衣物既不尋常,也可能是危險的。”這邏輯無可爭辯。然而在加拉格爾和斯卡爾斯基的接下來的測試中,Llava-1.5 的弱點開始顯現出來。他們發現模型可以成功地識別一枚硬幣的面額,但對於多枚硬幣的影象則表現較差——這表明它可能在「更忙碌」的影象中迷失了方向。此外 Llava-1.5 也不能可靠地識別文字,這與 GPT-4V 的表現相比相形見絀。加拉格爾和斯卡爾斯基給 Llava-1.5 提供了一張來自網頁的文字截圖,Llava-1.5 雖然能夠正確識別其中一部分文字,但也犯了幾個錯誤,並陷入了一個奇怪的迴圈。而 GPT-4V 則沒有出現這些問題。這種糟糕的文字識別能力實際上可能是個好訊息——至少從某種程度上來說。程式設計師 Simon Willison 最近研究了 GPT-4V 如何被「欺騙」,以繞過其內建的反毒性、反偏見的安全措施,甚至解決 CAPTCHA 的方法,只需要向模型提供包含附加惡意指令的文字影象。如果 Llava-1.5 在文字識別方面能夠與 GPT-4V 相媲美,鑑於它類似於 GPT-4V 可以根據開發者的目的進行使用,那麼它可能對安全性構成更大的威脅。然而根據 ChatGPT 的使用條款,由於 Llava-1.5 的訓練資料是基於 ChatGPT 建立的,因此 Llava-1.5 在技術上不能用於商業用途,這約束了開發者使用它來訓練競爭性的商業模型。不過是否有人會遵守這一約束還有待觀察。關於安全措施的問題,我進行了一次簡單的測試,很快就發現 Llava-1.5 並沒有像 GPT-4V 那樣受到毒性過濾器的約束。當被問及給一張影象中被放大的女性一些建議時,Llava-1.5 建議該女性應該「控制體重」和「改善身體健康」。而 GPT-4V 則直接拒絕回答。Llava-1.5 的回答暗示了圖片中人物的不健康,純粹基於他們的外表。

Adept:開源的 AI 模型助手

Adept 的第一個開源多模態模型 Fuyu-8B 並不意圖與 Llava-1.5 競爭。與 Llava-1.5 一樣,這個模型不可以用於商業用途;這是因為它的部分訓練資料是在類似約束條款下提供給 Adept 的,Adept 的執行長 David Luan 如此解釋。相反,Adept 希望透過 Fuyu-8B 向開發者社區展示其內部工作並徵求反饋和錯誤報告。

Fuyu-8B 是該新創公司內部多模態模型的早期和較小版本。這個模型包含 80 億個引數,在標準影象理解基準上表現良好,具有簡單的架構和訓練程式,並且可以快速回答問題(在 8 個 A100 GPU 上約為 130 毫秒),Adept 稱。但這個模型獨特之處在於它可以理解非結構化資料。與 Llava-1.5 不同,Fuyu-8B 可以根據指示在銀幕上找到非常具體的元素,從軟體的使用者介面提取相關細節,並回答關於圖表和圖示的選擇題。

然而 Fuyu-8B 並未將這些功能自帶。Adept 對更大、更複雜的 Fuyu-8B 版本進行了微調,以在其內部產品中執行檔案和軟體理解任務。Luan 表示:“我們的模型針對知識工作者資料進行了最佳化,例如網站、介面、螢幕、圖表等以及一般自然照片。我們很高興在 GPT-4V 和 Gemini 等模型公開發布之前,能夠發布一個好的開源多模態模型。”我問 Luan 是否擔心 Fuyu-8B 可能被濫用,考慮到即使是 GPT-4V,都被封閉在 API 和安全過濾器之後,也被用於不正當用途。他認為,該模型的尺寸較小,應該不太可能造成「嚴重的下遊風險」,但承認 Adept 尚未在 CAPTCHA 提取等用例上對其進行測試。Luan 表示:“我們正在發布的是一個'基礎'模型,也就是它沒有經過微調,沒有包含審查機制或提示注入的保護措施。由於多模態模型有如此廣泛的應用,這些機制應該針對特定的用例,確保模型可以實現開發者的意圖。”但這是否是明智的選擇?我對此表示懷疑。如果 Fuyu-8B 存在與 GPT-4V 相似的缺陷,那麼開發者在其基礎上構建的應用程式就不會有好的表現。除了偏見之外,GPT-4V 在之前能夠正確回答的問題上給出了錯誤答案,錯誤識別危險物質,在文字版本中也捏造了「事實」。然而就像越來越多的開發者一樣,Adept 似乎傾向於沒有約束地開源多模態模型,不管後果如何。

OpenAIGPT-4V-開源,多模態,GPT-4V,挑戰者
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。