網路議題

如果 AI 影象生成器如此聰明，為什麼在寫作和計算方面卻苦於掙扎？

若 AI 影象生成器如此聰明，為何在寫作和計算上遇到困難？作者：西亞利·米爾賈裏利（The Conversation）近年來 Midjourney、Stable Diffusion 和 DALL-E 2 等生成式 AI 工具以其在幾秒內產生令人驚嘆的影象的能力使我們大為震驚。儘管取得了這樣的成就，但 .... (往下繼續閱讀)

by 程宇肖
2023/7/6
7 分鐘閱讀時間

A- A A+

文章目錄

若 AI 影象生成器如此聰明，為何在寫作和計算上遇到困難？

作者：西亞利·米爾賈裏利（The Conversation）

近年來 Midjourney、Stable Diffusion 和 DALL-E 2 等生成式 AI 工具以其在幾秒內產生令人驚嘆的影象的能力使我們大為震驚。儘管取得了這樣的成就，但 AI 影象生成器能夠產生的內容與人類的能力之間仍然存在一個令人困惑的差異。例如，在計算物體數量和生成準確的文字等看似簡單的任務上，這些工具通常無法提供令人滿意的結果。如果生成式 AI 在創造性表達方面已經達到如此前所未有的高度，為什麼它在一些連小學生都能完成的任務上卻如此困難？探究其根本原因有助於揭示 AI 的複雜數值本質和能力的細微差異。

AI 在寫作上的局限性

人類能夠輕易地辨認不同字型和書寫風格中的文字元號（如字母、數位和字元）。我們也能夠在不同的語境中使用文字，並理解語境如何改變含義。然而當前的 AI 影象生成器卻缺乏這種固有的理解能力。它們對於文字元號的含義並沒有真正的理解。這些生成器建立在大量影象資料上訓練的人工神經網路之上，從中“學習”聯動並做出預測。

訓練影象中的形狀組合與各種實體相聯動。例如，兩條朝內的相交線可能代表鉛筆的尖或房屋的屋頂。但是對於文字和數量而言，聯動必須非常準確，因為即使是微小的缺陷也是顯而易見的。我們的大腦可以忽略鉛筆尖或房屋的輕微偏差，但在文字寫法或手指數量方面就不能忽視那麼多。

對於文字到影象模型來說文字元號只是線條和形狀的組合。由於文字有多種不同的風格和無窮盡的排列方式，模型通常無法學會如何有效地重現文字。這主要原因是訓練資料不足。與其他任務相比，AI 影象生成器需要更多的訓練資料來準確表示文字和數量。

AI 在計算上的挑戰

當處理需求細緻的小型物體（如手）時，也會出現問題。在訓練影象中，手通常很小，拿著物體，或被其他元素部分遮擋。這對 AI 來說非常具有挑戰性，要將“手”的術語與正確表示有五個手指的人手的確切形式相聯動。

結果，由 AI 生成的手通常看起來變形，有多餘或少於五根手指，或者手部被衣袖或手提包等物體部分遮擋。當涉及到數量時，AI 模型缺乏對於“四”這種抽象概念的清晰理解。因此如果 AI 影象生成器在要求“四個蘋果”的情況下，透過從許多包含許多蘋果數量的影象學習返回具有不正確數量的輸出。

換句話說，訓練資料中的眾多聯動多樣性影響了輸出中數量的準確性。

AI 能否能寫作和計數？

值得記住的是，文字到影象和文字到影片轉換是 AI 中相對較新的概念。當前的生成式平臺只是未來預期的“低解析度”版本。隨著訓練過程和 AI 技術的不斷進步，未來的 AI 影象生成器很可能更能夠產生準確的視覺效果。同樣值得注意的是，大多數公開可用的 AI 平臺並不提供最高水準的能力。生成準確的文字和數量需要高度最佳化和定制的網路，因此付費訂閱更先進的平臺可能會提供更好的結果。

本文為轉載文章，來源為 The Conversation，授權方式為創意共享許可證。原文可在以下連結中閱讀：https://techxplore.com/news/2023-07-ai-image-generators-smart-struggle.html

ArtificialIntelligence-AI 影象生成器,寫作,計算,掙扎

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集