網路議題

人工智慧生成的內容真的能夠被檢測出來嗎?

AI 生成內容的識別問題人工智慧(AI)在實現機器學習技術和大量資料學習的基礎上,近年來取得了巨大進展。大型語言模型(LLMs)及其衍生物,如 OpenAI 的 ChatGPT 和 Google 的 BERT,現在能夠生成越來越接近人類建立內容的材料。因此 LLMs 已成為建立高品質、相關和一致文字 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

人工智慧生成的內容真的能夠被檢測出來嗎?

AI 生成內容的識別問題

人工智慧(AI)在實現機器學習技術和大量資料學習的基礎上,近年來取得了巨大進展。大型語言模型(LLMs)及其衍生物,如 OpenAI 的 ChatGPT 和 Google 的 BERT,現在能夠生成越來越接近人類建立內容的材料。因此 LLMs 已成為建立高品質、相關和一致文字的流行工具,從社交媒體發帖到起草學術文章的各種用途都非常廣泛。

然而 LLMs 現在面臨著越來越多的批評。批評者,尤其是教育工作者和原創內容製作者,認為 LLMs 是抄襲、作弊、欺騙和操縱社交工程的手段。為理解決這些問題,研究人員開發了新方法來區分人造內容和機器生成文字的兩種方法。希望能夠識別自動內容來約束 LLM 濫用和其後果。

AI 內容識別難以可靠

檢測 LLM 的過程主要包括兩種錯誤:第一種是將人類文字檢測為 AI 生成的,第二種是不能檢測 AI 生成的文字。馬裏蘭大學電腦科學助理教授 Soheil Feizi 表示:“現有的 AI 檢測器在實際情況下並不可靠。有很多缺點約束了它們在檢測方面的有效性。例如,我們可以使用改寫器,即使是我們已經開發的最佳檢測器的準確率也從 100%降至像硬幣正反面那樣的隨機性。如果我們簡單地重述由 LLM 生成的東西,我們通常可以瞞過各種檢測技術。”

缺陷約束檢測器效 iveness

Feizi 描述了兩種錯誤影響了 AI 檢測器的可靠性:第一種是將人類文字檢測為 AI 生成的,第二種是不能檢測 AI 生成的文字。Feizi 解釋說:“使用改寫器,這現在是一種相當常見的線上工具,會引起第二種錯誤。也有最近的第一種錯誤,這一錯誤在美國憲法上推出了 AI 檢測軟體,需要檢測是否為 AI 生成的。顯然是錯誤的。”

根據 Feizi 的說法,由 AI 檢測器犯下的這種錯誤可能會造成極大的損害,而當像教育工作者和出版商等當局指責學生和其他內容創作者使用 AI 時,這些指控通常是無法辯駁的。如果這樣的指控被證實是虛假的,那麼負責開發失效 AI 檢測器的公司和個人也可能遭受名譽損失。此外即使受水印保護的 LLMs 也容易遭到欺騙攻擊,敵對人類可以︰推斷隱藏的水印,並將它們新增到非-AI 文字中以便檢測到它是 AI 生成的。當失效結果出現時會損害聲譽和智慧財產權。這是 Feizi 呼籲應謹慎依靠 AI 檢測器取證人類建立內容的主要原因。

加固 AI 檢測的措施

但是馬裏蘭大學電腦科學助理教授 Furong Huang 對 AI 檢測的未來持有更樂觀的看法。儘管她認同他的同事 Feizi 的見解,即當前的檢測器是不完美的,但黃認為,只要有足夠多的人造和真實的檔案可供學習和比較,就可以標識人造內容.


與依賴檢測檢測單個短語或句子不同,Huang 小組建議採用更全面的方式進行檢測,並擴大樣本,以更好地識別這種 AI 生成的‘垃圾內容’。

值得注意的是,即使靠近理論極限,區分人工和人造文字仍是困難,因此需要採取有效措施。糾正由於 AI 生成內容可能導致的廣泛後果,保護公眾免受 LLM 濫用帶來的影響是非常必要的。因此研究人員建議使用較多的樣本來加固檢測器識別 AI 生成的文字的能力。此外隨著 LLMs 和其它類似形式的 AI 生成內容的普及,研究人員像 Feizi 和 Huang 也指出,在公眾和政策制定者之間進行更積極的討論未來發展 AI 的標準。值得一提的是,兩篇論文均刊載在 arXiv 預印本服務。

思考與建議

LLM 和 AI 技術的發展已改變人們的創作方式,這引發了對人工智慧能力和約束的思考。這些新技術帶來了許多挑戰,特別是在識別 AI 生成內容方面。這將對許多領域,特別是教育和出版產生深遠的影響。

即使從理論上講,區分人工和生成的文字仍是困難的。人眼可以區分各種內容,但 AI 檢測器感知不到差異。因此不能過度依賴 AI 檢測器,尤其在可能會影響人的生活或工作的重要情況下。相反,我們需要創造一個環境,使人們能夠明智地使用這些工具,並明確理解它們的潛在風險和約束。這也意味著我們需要更加努力地教育公眾,讓他們理解這些技術以及如何識別 AI 生成的內容。

我們應該也可以從政策層面來解決這個問題。例如,可以透過法規要求 AI 生成的內容標記,以確保公眾知道他們正在檢視由機器生成的內容。我們也可以研究開發更先進的 AI 檢測器,並採取更全面的方法來識別 AI 生成的內容,例如使用更大的樣本進行學習和比較。

最終我們需要確保我們繼續推動研究,以更好地理解和控制這些新的 AI 技術。而這必須是一個多學科的努力,需要電腦科學家、社會科學家、政策制定者以及公眾的參與。在這樣的協作下,我們才能有效地解決由 LLMs 及其相關技術引起的挑戰。

AI-generated_content_detection-AI 生成內容,檢測,真假
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。