網路議題

人工智慧生成的內容真的能夠被檢測出來嗎？

AI 生成內容的識別問題人工智慧（AI）在實現機器學習技術和大量資料學習的基礎上，近年來取得了巨大進展。大型語言模型（LLMs）及其衍生物，如 OpenAI 的 ChatGPT 和 Google 的 BERT，現在能夠生成越來越接近人類建立內容的材料。因此 LLMs 已成為建立高品質、相關和一致文字 .... (往下繼續閱讀)

by 程宇肖
2023/6/1
8 分鐘閱讀時間

A- A A+

文章目錄

AI 生成內容的識別問題

人工智慧（AI）在實現機器學習技術和大量資料學習的基礎上，近年來取得了巨大進展。大型語言模型（LLMs）及其衍生物，如 OpenAI 的 ChatGPT 和 Google 的 BERT，現在能夠生成越來越接近人類建立內容的材料。因此 LLMs 已成為建立高品質、相關和一致文字的流行工具，從社交媒體發帖到起草學術文章的各種用途都非常廣泛。

然而 LLMs 現在面臨著越來越多的批評。批評者，尤其是教育工作者和原創內容製作者，認為 LLMs 是抄襲、作弊、欺騙和操縱社交工程的手段。為理解決這些問題，研究人員開發了新方法來區分人造內容和機器生成文字的兩種方法。希望能夠識別自動內容來約束 LLM 濫用和其後果。

AI 內容識別難以可靠

檢測 LLM 的過程主要包括兩種錯誤：第一種是將人類文字檢測為 AI 生成的，第二種是不能檢測 AI 生成的文字。馬裏蘭大學電腦科學助理教授 Soheil Feizi 表示：“現有的 AI 檢測器在實際情況下並不可靠。有很多缺點約束了它們在檢測方面的有效性。例如，我們可以使用改寫器，即使是我們已經開發的最佳檢測器的準確率也從 100%降至像硬幣正反面那樣的隨機性。如果我們簡單地重述由 LLM 生成的東西，我們通常可以瞞過各種檢測技術。”

缺陷約束檢測器效 iveness

Feizi 描述了兩種錯誤影響了 AI 檢測器的可靠性：第一種是將人類文字檢測為 AI 生成的，第二種是不能檢測 AI 生成的文字。Feizi 解釋說：“使用改寫器，這現在是一種相當常見的線上工具，會引起第二種錯誤。也有最近的第一種錯誤，這一錯誤在美國憲法上推出了 AI 檢測軟體，需要檢測是否為 AI 生成的。顯然是錯誤的。”

根據 Feizi 的說法，由 AI 檢測器犯下的這種錯誤可能會造成極大的損害，而當像教育工作者和出版商等當局指責學生和其他內容創作者使用 AI 時，這些指控通常是無法辯駁的。如果這樣的指控被證實是虛假的，那麼負責開發失效 AI 檢測器的公司和個人也可能遭受名譽損失。此外即使受水印保護的 LLMs 也容易遭到欺騙攻擊，敵對人類可以︰推斷隱藏的水印，並將它們新增到非-AI 文字中以便檢測到它是 AI 生成的。當失效結果出現時會損害聲譽和智慧財產權。這是 Feizi 呼籲應謹慎依靠 AI 檢測器取證人類建立內容的主要原因。

加固 AI 檢測的措施

但是馬裏蘭大學電腦科學助理教授 Furong Huang 對 AI 檢測的未來持有更樂觀的看法。儘管她認同他的同事 Feizi 的見解，即當前的檢測器是不完美的，但黃認為，只要有足夠多的人造和真實的檔案可供學習和比較，就可以標識人造內容.

與依賴檢測器檢測單個短語或句子不同，Huang 小組建議採用更全面的方式進行檢測，並擴大樣本，以更好地識別這種 AI 生成的‘垃圾內容’。

值得注意的是，即使靠近理論極限，區分人工和人造文字仍是困難，因此需要採取有效措施。糾正由於 AI 生成內容可能導致的廣泛後果，保護公眾免受 LLM 濫用帶來的影響是非常必要的。因此研究人員建議使用較多的樣本來加固檢測器識別 AI 生成的文字的能力。此外隨著 LLMs 和其它類似形式的 AI 生成內容的普及，研究人員像 Feizi 和 Huang 也指出，在公眾和政策制定者之間進行更積極的討論未來發展 AI 的標準。值得一提的是，兩篇論文均刊載在 arXiv 預印本服務。

思考與建議

LLM 和 AI 技術的發展已改變人們的創作方式，這引發了對人工智慧能力和約束的思考。這些新技術帶來了許多挑戰，特別是在識別 AI 生成內容方面。這將對許多領域，特別是教育和出版產生深遠的影響。

即使從理論上講，區分人工和生成的文字仍是困難的。人眼可以區分各種內容，但 AI 檢測器感知不到差異。因此不能過度依賴 AI 檢測器，尤其在可能會影響人的生活或工作的重要情況下。相反，我們需要創造一個環境，使人們能夠明智地使用這些工具，並明確理解它們的潛在風險和約束。這也意味著我們需要更加努力地教育公眾，讓他們理解這些技術以及如何識別 AI 生成的內容。

我們應該也可以從政策層面來解決這個問題。例如，可以透過法規要求 AI 生成的內容標記，以確保公眾知道他們正在檢視由機器生成的內容。我們也可以研究開發更先進的 AI 檢測器，並採取更全面的方法來識別 AI 生成的內容，例如使用更大的樣本進行學習和比較。

最終我們需要確保我們繼續推動研究，以更好地理解和控制這些新的 AI 技術。而這必須是一個多學科的努力，需要電腦科學家、社會科學家、政策制定者以及公眾的參與。在這樣的協作下，我們才能有效地解決由 LLMs 及其相關技術引起的挑戰。

AI-generated_content_detection-AI 生成內容,檢測,真假

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集