與 OpenAI 的「多模態」GPT-4V 相遇——兩款開源挑戰者

開放原始碼挑戰者：GPT-4V 的兩個多模態模型撰稿人：OpenAI 的 GPT-4V 被譽為人工智慧領域的下一個重大突破，它是一個可以理解文字和影象的「多模態」模型。這個模型具有明顯的實用性，所以一對開放原始碼專案也發布了類似的模型。然而這些模型面臨的挑戰也更加困難。以下是這兩個模型的詳細對比。多 .... (往下繼續閱讀)

by 程宇肖
2023/10/19
15 分鐘閱讀時間

A- A A+

文章目錄

開放原始碼挑戰者：GPT-4V 的兩個多模態模型

撰稿人：

OpenAI 的 GPT-4V 被譽為人工智慧領域的下一個重大突破，它是一個可以理解文字和影象的「多模態」模型。這個模型具有明顯的實用性，所以一對開放原始碼專案也發布了類似的模型。然而這些模型面臨的挑戰也更加困難。以下是這兩個模型的詳細對比。

多模態模型的應用和風險

多模態模型可以做到傳統的文字或影象分析模型所無法做到的事情。例如，GPT-4V 可以提供更容易展示而非解釋的指令，例如修理腳踏車。並且由於多模態模型不僅可以識別影象中的物體，還可以推斷並理解其內容（至少在某種程度上），它們可以超越明顯的內容，例如根據影象中的冰箱內的食材提供食譜建議。然而多模態模型也帶來了新的風險。OpenAI 最初推遲了 GPT-4V 的發布，出於對它可能被用於未經同意或知情下識別影象中的人物的擔憂。即使現在 GPT-4V 仍然存在令人擔憂的缺陷，包括無法識別仇恨符號以及對某些性別、人口統計和體型的歧視。這些問題甚至是 OpenAI 自己提到的！

開放選擇

儘管存在風險，但許多公司和獨立開發者正在積極推進並發布開源的多模態模型。儘管這些模型的能力不及 GPT-4V，但它們可以實現許多甚至大部分相同的功能。本月初，威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究團隊發布了 Llava-1.5（即「Large Language-and-Vision Assistant」的縮寫），它對影象的問題作答能力與 GPT-4V 相似，例如對「這張圖片有什麼不尋常之處？」和「在這裡參觀時應該注意什麼？」等提示進行回答。Llava-1.5 在 Qwen-VL 和 Google 的 PaLI-X 和 PaLM-E 之後推出，成為其中一個首款可以在消費型硬體上執行的多模態模型——只需要擁有少於 8GB VRAM 的 GPU 即可。

此外一家名為 Adept 的新創公司也公開了一個 GPT-4V 樣式的多模態文字和影象模型，但有所不同。Adept 的這個模型可以理解包含圖表、統計圖和螢幕截圖等「知識工作者」資料，使其能夠操作和推理這些資料。這樣的模型使得 Adept 可以構建能夠自主地在軟體和網路上導航的 AI 模型。

Llava-1.5：一種易於使用的多模態模型

Llava-1.5 是由一支與微軟聯絡密切的研究團隊幾個月前發布的 Llava 模型的改進版本。與 Llava 一樣，Llava-1.5 結合了一個名為「視覺編碼器」的元件和基於 Meta 公司的 Llama 模型的 Vicuna，以理解影象和文字及其聯動。最初的 Llava 團隊使用 OpenAI 的 ChatGPT 和 GPT-4 的文字版本生成了該模型的訓練資料。他們提供了影象描述和後設資料，以提示這些模型根據影象內容建立對話、問題、答案和推理問題。Llava-1.5 團隊進一步增加了影象解析度，並將 Llava 的訓練資料集中加入了 ShareGPT 的資料，該平臺允許使用者共享與 ChatGPT 的對話。

兩個可用的 Llava-1.5 模型中，較大的模型含有 130 億個引數，可以在一天內使用 8 個 Nvidia A100 GPU 進行訓練，伺服器成本約為幾百美元。（引數是從歷史訓練資料中學到的模型的部分，基本上定義了模型在解決問題時的能力，例如生成文字）這並不便宜，但考慮到據報道 OpenAI 花費數千萬美元來訓練 GPT-4，這無疑是朝著正確的方向邁出的一步。當然前提是模型的表現足夠好。Roboflow 的軟體工程師詹姆斯·加拉格爾和皮奧特爾·斯卡爾斯基最近對 Llava-1.5 進行了測試，並在一篇博文中詳細介紹了結果。

首先他們測試了模型的「零樣本」物件檢測能力，也就是說它能否識別它沒有被明確訓練過的物體。他們要求 Llava-1.5 在一張影象中檢測狗，令人印象深刻的是，它成功地做到了這一點，甚至指出了在影象中它「看到」狗的位置。接著，加拉格爾和斯卡爾斯基進行了一個更難的測試，即要求模型解釋一個迷因。由於迷因具有雙重含義、雙關語、內鬥祕語和潛在意義，它們對於多模態模型進行上下文理解和分析是有用的基準。他們給 Llava-1.5 提供了一張圖片，圖片中有一個人熨燙衣物的照片被 PS 到一輛黃色的計程車的後面。他們問 Llava-1.5：“這張圖片有什麼不尋常之處？”模型給出了答案：“在街道中央的計程車後面熨燙衣物既不尋常，也可能是危險的。”這邏輯無可爭辯。然而在加拉格爾和斯卡爾斯基的接下來的測試中，Llava-1.5 的弱點開始顯現出來。他們發現模型可以成功地識別一枚硬幣的面額，但對於多枚硬幣的影象則表現較差——這表明它可能在「更忙碌」的影象中迷失了方向。此外 Llava-1.5 也不能可靠地識別文字，這與 GPT-4V 的表現相比相形見絀。加拉格爾和斯卡爾斯基給 Llava-1.5 提供了一張來自網頁的文字截圖，Llava-1.5 雖然能夠正確識別其中一部分文字，但也犯了幾個錯誤，並陷入了一個奇怪的迴圈。而 GPT-4V 則沒有出現這些問題。這種糟糕的文字識別能力實際上可能是個好訊息——至少從某種程度上來說。程式設計師 Simon Willison 最近研究了 GPT-4V 如何被「欺騙」，以繞過其內建的反毒性、反偏見的安全措施，甚至解決 CAPTCHA 的方法，只需要向模型提供包含附加惡意指令的文字影象。如果 Llava-1.5 在文字識別方面能夠與 GPT-4V 相媲美，鑑於它類似於 GPT-4V 可以根據開發者的目的進行使用，那麼它可能對安全性構成更大的威脅。然而根據 ChatGPT 的使用條款，由於 Llava-1.5 的訓練資料是基於 ChatGPT 建立的，因此 Llava-1.5 在技術上不能用於商業用途，這約束了開發者使用它來訓練競爭性的商業模型。不過是否有人會遵守這一約束還有待觀察。關於安全措施的問題，我進行了一次簡單的測試，很快就發現 Llava-1.5 並沒有像 GPT-4V 那樣受到毒性過濾器的約束。當被問及給一張影象中被放大的女性一些建議時，Llava-1.5 建議該女性應該「控制體重」和「改善身體健康」。而 GPT-4V 則直接拒絕回答。Llava-1.5 的回答暗示了圖片中人物的不健康，純粹基於他們的外表。

Adept：開源的 AI 模型助手

Adept 的第一個開源多模態模型 Fuyu-8B 並不意圖與 Llava-1.5 競爭。與 Llava-1.5 一樣，這個模型不可以用於商業用途；這是因為它的部分訓練資料是在類似約束條款下提供給 Adept 的，Adept 的執行長 David Luan 如此解釋。相反，Adept 希望透過 Fuyu-8B 向開發者社區展示其內部工作並徵求反饋和錯誤報告。

Fuyu-8B 是該新創公司內部多模態模型的早期和較小版本。這個模型包含 80 億個引數，在標準影象理解基準上表現良好，具有簡單的架構和訓練程式，並且可以快速回答問題（在 8 個 A100 GPU 上約為 130 毫秒），Adept 稱。但這個模型獨特之處在於它可以理解非結構化資料。與 Llava-1.5 不同，Fuyu-8B 可以根據指示在銀幕上找到非常具體的元素，從軟體的使用者介面提取相關細節，並回答關於圖表和圖示的選擇題。

然而 Fuyu-8B 並未將這些功能自帶。Adept 對更大、更複雜的 Fuyu-8B 版本進行了微調，以在其內部產品中執行檔案和軟體理解任務。Luan 表示：“我們的模型針對知識工作者資料進行了最佳化，例如網站、介面、螢幕、圖表等以及一般自然照片。我們很高興在 GPT-4V 和 Gemini 等模型公開發布之前，能夠發布一個好的開源多模態模型。”我問 Luan 是否擔心 Fuyu-8B 可能被濫用，考慮到即使是 GPT-4V，都被封閉在 API 和安全過濾器之後，也被用於不正當用途。他認為，該模型的尺寸較小，應該不太可能造成「嚴重的下遊風險」，但承認 Adept 尚未在 CAPTCHA 提取等用例上對其進行測試。Luan 表示：“我們正在發布的是一個'基礎'模型，也就是它沒有經過微調，沒有包含審查機制或提示注入的保護措施。由於多模態模型有如此廣泛的應用，這些機制應該針對特定的用例，確保模型可以實現開發者的意圖。”但這是否是明智的選擇？我對此表示懷疑。如果 Fuyu-8B 存在與 GPT-4V 相似的缺陷，那麼開發者在其基礎上構建的應用程式就不會有好的表現。除了偏見之外，GPT-4V 在之前能夠正確回答的問題上給出了錯誤答案，錯誤識別危險物質，在文字版本中也捏造了「事實」。然而就像越來越多的開發者一樣，Adept 似乎傾向於沒有約束地開源多模態模型，不管後果如何。

OpenAIGPT-4V-開源,多模態,GPT-4V,挑戰者

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集