網路議題

如果 AI 影象生成器如此聰明,為什麼它們在寫作和計數方面還感到困難?

如果 AI 影象生成器如此聰明,為什麼在寫作和計數方面感到困難?AI 在寫作方面的約束人類能夠輕易辨識各種不同字型和手寫體的文字元號,我們也能在不同語境中產生文字並理解語境如何改變含意。然而當前的 AI 影象生成器卻缺乏這種固有的理解能力。它們無法真正理解任何文字元號的意義。這些生成器是建立在大量 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

如果 AI 影象生成器如此聰明,為什麼它們在寫作和計數方面還感到困難?

如果 AI 影象生成器如此聰明,為什麼在寫作和計數方面感到困難?

AI 在寫作方面的約束

人類能夠輕易辨識各種不同字型和手寫體的文字元號,我們也能在不同語境中產生文字並理解語境如何改變含意。然而當前的 AI 影象生成器卻缺乏這種固有的理解能力。它們無法真正理解任何文字元號的意義。這些生成器是建立在大量影象資料上訓練的人工神經網路上,透過這些資料它們"學習"聯動並做出預測。

在訓練影象中,形狀的組合與不同的實體相聯動。例如,兩條面對內部的線可能代表一支鉛筆的尖端,或者是一個房子的屋頂。然而對於文字和數量來說這些聯動必須非常準確,因為即使是微小的不完美都是顯而易見的。我們的大腦可以忽略鉛筆尖端或者房頂的細微差異,但在文字書寫或手指數量方面,卻不容忽視。

就文字到影象模型而言,文字元號只是由線和形狀組合而成的。由於文字具有如此多不同的風格,而且字母和數位的排列方式幾乎無窮無盡,所以模型通常無法學會如何有效地再現文字。主要原因是訓練資料不足。AI 影象生成器需要更多的訓練資料才能準確表現文字和數量,而不是其他任務。

AI 在計數方面的困難

面臨的問題也出現在需要細緻細節的小物體,如手部。在訓練影象中,手通常很小,握著物體,或部分被其他元素遮擋。對於 AI 來說將"手"這個詞與具有五個手指的真實人手的確切表示聯動起來變得困難。因此 AI 生成的手常常看起來變形,有額外或少了手指,或者有部分被衣袖或手袋遮擋。

當涉及到數量時,AI 模型缺乏對數量的明確理解,比如抽象概念"四"。因此一個影象生成器可能會對於"四個蘋果"的提示返回一個包含錯誤數量的輸出,因為它從許多包含各種數量蘋果的影象中學習。

換句話說,訓練資料中的巨大多樣性對輸出中的數量準確性產生影響。

AI 能否實現寫作和計數的能力?

值得記住的是,文字到影象和文字到影片轉換在 AI 中屬於相對較新的概念。當前的生成平臺只是未來版本的“低解析度”。隨著訓練過程和 AI 技術的進一步發展,未來的 AI 影象生成器可能會更有能力產生準確的影象。同樣需要注意的是,大多數公開存取的 AI 平臺不提供最高水平的能力。生成準確的文字和數量需要高度最佳化和定制的網路,因此付費訂閱更高級平臺可能會有更好的結果。

總結來說當前的 AI 影象生成器在寫作和計數方面確實面臨一些困難。但隨著技術的不斷進步,未來的 AI 可能會具有更大的能力,能夠更準確地生成文字和數量。

AI 影象生成器在寫作和計數方面感到困難的關鍵字:語言處理-AI 影象生成器,寫作困難,計數困難
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。