蔡斯沃：文字生成影象 AI 藝術的愚蠢

觀點：使用文字生成影象 AI 創作藝術的愚蠢行為引言身為一位藝術家和電腦科學家，我多年來一直使用生成式人工智慧（AI）進行創作。這種新型工具讓大多數人只需輸入文字提示就能生成影象。只需要在文字框中輸入「範·高（Van Gogh）風格的風景」，AI 就能按照指示創作出美麗的影象。這項技術的威力在於利用 .... (往下繼續閱讀)

by 江塵
2023/6/24
10 分鐘閱讀時間

A- A A+

文章目錄

觀點：使用文字生成影象 AI 創作藝術的愚蠢行為

引言

身為一位藝術家和電腦科學家，我多年來一直使用生成式人工智慧（AI）進行創作。這種新型工具讓大多數人只需輸入文字提示就能生成影象。只需要在文字框中輸入「範·高（Van Gogh）風格的風景」，AI 就能按照指示創作出美麗的影象。這項技術的威力在於利用人類語言來控制藝術生成。然而這些系統能準確地傳達藝術家的視覺嗎？將語言融入藝術創作真能帶來藝術上的突破嗎？

約束創造過程

當你使用 AI 來生成影象時，文字提示有無限的可能性。如果你是一個普通的使用者，你可能對 AI 為你生成的結果感到滿意。初創企業和投資者為此技術投入了數十億美元，認為這是為文章、影片遊戲角色和廣告生成圖形的簡單方法。然而藝術家可能需要撰寫一篇類似散文的提示，以生成一幀質量高且能體現他們視覺的影象，包括正確的構圖、照明和陰影。這種長篇提示通常並不是對影象的描述，而是使用大量關鍵詞以啟用系統，讓系統知道藝術家心中所想。這是一種相對新的術語，稱為「提示工程」。使用這些工具的藝術家的作用基本上被降低為逆向工程系統，尋找合適的關鍵詞，以使系統生成所需的輸出。這需要付出很多努力和大量的嘗試和錯誤來找到合適的文字。

AI 並不像它看起來那麼智慧

要更好地控制生成的輸出，我們需要認識到大多數這些系統是透過從網際網路中的影象和標題中訓練而來的。想一想通常的影象標題能告訴我們什麼。標題通常是為了補充網頁瀏覽的視覺體驗而編寫的。例如，標題可以描述攝影師的名字和版權持有人。在一些網站上，比如 Flickr，標題通常描述使用的相機型號和鏡頭。在其他網站上，標題描述的是用於渲染影象的圖形引擎和硬體。生成式 AI 被認為是一種有前途的工具，用於建立影片遊戲角色。然而要撰寫一個有用的文字提示，使用者需要插入許多與影象無關的關鍵詞，以讓 AI 系統生成一張符合提示的圖片。如今的 AI 系統並不像看起來那麼智慧，它們本質上是智慧檢索系統，具有巨大的記憶能力，透過聯想工作。藝術家對於缺乏控制感到沮喪

AI Generates Low-Quality Outputs

這種工具真的能幫助藝術家創造出優秀的作品嗎？我們在我創立的生成式 AI 藝術平臺 Playform AI 上進行了一項調查，旨在更好地理解藝術家對生成式 AI 的使用體驗。我們收集了來自 500 多名數位藝術家、傳統畫家、攝影師、插畫師和平面設計師的回答，他們使用過 DALL-E、Stable Diffusion 和 Midjourney 等平臺。只有 46%的受訪者認為這些工具非常有用，而 32%的人則表示這些工具的使用對他們的工作流程有一定的幫助。其餘的使用者中，有 22%的人認為這些工具一點都不有用。藝術家和設計師們強調的主要約束是缺乏控制權。根據 0 到 10 的評分，受訪者對於控制輸出的能力在 4 到 5 之間。一半的受訪者認為生成的輸出有趣，但質量不夠高，不能在他們的實踐中使用。對於生成式 AI 是否會影響他們的實踐，有 90%的藝術家表示認同；46%的人認為影響將是積極的，而 7%的人則預測將會有負面影響。還有 37%的人認為他們的實踐將受到影響，但不確保具體影響方式。

約束的根本原因

這些約束是根本性的嗎？還是隨著技術的改從而消失？當然更新版本的生成式 AI 將為使用者提供更多控制輸出的功能，並提供更高的解析度和更好的影象質量。但對我來說就藝術而言，主要的約束是顯而易見的：即使用語言作為生成影象的主要驅動力。相比起文字，視覺藝術家更加擅長以影象作為思考方式。當他們想像自己的作品時，通常依靠的是視覺參考，而不是文字，比如記憶中的一個場景、一組照片或者其他藝術品。當語言處於影象生成的主導地位時，我看到一個額外的障礙，它將藝術家和數碼畫布之間隔開。畫素只能透過語義的範圍來呈現。藝術家失去了在語義範圍之外操縱畫素的自由。

藝術家身份的問題

使用文字到影象的技術還存在著另一個根本性約束，即如果兩位藝術家輸入完全相同的提示，系統生成相同的影象的機率非常低。這並不是因為藝術家的原因，不同的輸出僅取決於 AI 從不同的隨機初始影象開始。換句話說，藝術家的輸出歸結為機會。我們調查的近三分之二的藝術家擔心，他們生成的 AI 作品可能與其他藝術家的作品相似，而這種技術並不能反映他們的身份，甚至完全替代了他們。藝術家身份的問題在於創作和認可藝術時變得至關重要。在 19 世紀，當攝影開始變得流行時，有一場關於攝影是否是藝術形式的爭論。這一爭論最終在法國的一場法庭案件中解決，該案件於 1861 年判定攝影可以享有版權保護。關鍵是攝影是否能夠表達藝術家的獨特身份。類似的問題出現在考慮到透過網際網路現有影象進行訓練的 AI 系統時。

建議

在文字生成影象 AI 方面，它可能對某些創作者和日常使用者（如工作展示或社交媒體發文）有一定的用途。但就藝術而言，我無法看到文字生成影象軟體如何能夠充分反映藝術家真正的意圖，捕捉到觀眾感到震撼並以嶄新方式看世界的作品所具有的美感和情感共鳴。在藝術創作中，視覺意象的力量是無法言表的。換句話說，藝術的真正價值超出了語言的約束。因此我建議藝術家在創作中尋求更自由、更本質的方式，並優先考慮使用自己的視覺參考和原創的形式來表達他們獨特的身份與風格。同時技術的進步也應該不斷推動著生成式 AI 向更自由、更開放的創作方向發展，以便更好地滿足藝術家們對創作自由和表達身份的需求。

Unsplash gallery keyword: AI, Art, Text, Image-文字生成,影象 AI,藝術,愚蠢

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集