
如果 AI 影象生成器如此聰明,為什麼在寫作和計數方面感到困難?
AI 在寫作方面的約束
人類能夠輕易辨識各種不同字型和手寫體的文字元號,我們也能在不同語境中產生文字並理解語境如何改變含意。然而當前的 AI 影象生成器卻缺乏這種固有的理解能力。它們無法真正理解任何文字元號的意義。這些生成器是建立在大量影象資料上訓練的人工神經網路上,透過這些資料它們"學習"聯動並做出預測。
在訓練影象中,形狀的組合與不同的實體相聯動。例如,兩條面對內部的線可能代表一支鉛筆的尖端,或者是一個房子的屋頂。然而對於文字和數量來說這些聯動必須非常準確,因為即使是微小的不完美都是顯而易見的。我們的大腦可以忽略鉛筆尖端或者房頂的細微差異,但在文字書寫或手指數量方面,卻不容忽視。
就文字到影象模型而言,文字元號只是由線和形狀組合而成的。由於文字具有如此多不同的風格,而且字母和數位的排列方式幾乎無窮無盡,所以模型通常無法學會如何有效地再現文字。主要原因是訓練資料不足。AI 影象生成器需要更多的訓練資料才能準確表現文字和數量,而不是其他任務。
AI 在計數方面的困難
面臨的問題也出現在需要細緻細節的小物體,如手部。在訓練影象中,手通常很小,握著物體,或部分被其他元素遮擋。對於 AI 來說將"手"這個詞與具有五個手指的真實人手的確切表示聯動起來變得困難。因此 AI 生成的手常常看起來變形,有額外或少了手指,或者有部分被衣袖或手袋遮擋。
當涉及到數量時,AI 模型缺乏對數量的明確理解,比如抽象概念"四"。因此一個影象生成器可能會對於"四個蘋果"的提示返回一個包含錯誤數量的輸出,因為它從許多包含各種數量蘋果的影象中學習。
換句話說,訓練資料中的巨大多樣性對輸出中的數量準確性產生影響。
AI 能否實現寫作和計數的能力?
值得記住的是,文字到影象和文字到影片轉換在 AI 中屬於相對較新的概念。當前的生成平臺只是未來版本的“低解析度”。隨著訓練過程和 AI 技術的進一步發展,未來的 AI 影象生成器可能會更有能力產生準確的影象。同樣需要注意的是,大多數公開存取的 AI 平臺不提供最高水平的能力。生成準確的文字和數量需要高度最佳化和定制的網路,因此付費訂閱更高級平臺可能會有更好的結果。
總結來說當前的 AI 影象生成器在寫作和計數方面確實面臨一些困難。但隨著技術的不斷進步,未來的 AI 可能會具有更大的能力,能夠更準確地生成文字和數量。