網路議題

驚爆！中國 AI 審查機器內幕資料外洩

中國 AI 審查機器內幕資料外洩：揭露新型態的言論控制中國 AI 審查機器內幕資料外洩：揭露新型態的言論控制在中國，對於貧困的抱怨、對共產黨腐敗成員的新聞報導以及對企業家被腐敗警察勒索的求助，這些只是被輸入到一種複雜的大型語言模型中的 133,000 個 .... (往下繼續閱讀)

by 江塵
2025/3/27
10 分鐘閱讀時間

A- A A+

文章目錄

中國 AI 審查機器內幕資料外洩：揭露新型態的言論控制

在中國，對於貧困的抱怨、對共產黨腐敗成員的新聞報導以及對企業家被腐敗警察勒索的求助，這些只是被輸入到一種複雜的大型語言模型中的 133,000 個例子中的一小部分。這種模型被設計用來自動標記任何被中國政府認為是敏感的內容。根據 TechCrunch 看到的外洩資料庫，中國已經開發了一個 AI 系統，這個系統大大增強了其原本就令人生畏的審查機器，其範圍遠遠超出了傳統禁忌，如天安門廣場大屠殺。這套系統似乎主要針對線上上審查中國公民，但也可能用於其他目的，如改進中國 AI 模型已經廣泛的審查功能。

AI 技術的進步與審查的升級

加州大學伯克利分校的研究員蕭強，專門研究中國的審查制度，他也檢查了這組資料，他告訴 TechCrunch，這是中國政府或其附屬機構希望利用大型語言模型來改善壓迫的「明確證據」。「與傳統的審查機制不同，傳統機制依賴於人力進行關鍵詞過濾和人工審查，訓練在這種指令上的大型語言模型將顯著提高國家主導的訊息控制的效率和細緻度，」蕭強告訴 TechCrunch。這增加了越來越多的證據，表明專制政權正在迅速採用最新的 AI 技術。例如，在二月，OpenAI 表示它抓到了多個中國實體使用大型語言模型來追蹤反政府貼文並抹黑中國異議人士。中國駐華盛頓大使館在宣告中告訴 TechCrunch，它反對「對中國的無端攻擊和誹謗」，並且中國非常重視發展道德 AI。

資料庫的發現與內容

這組資料庫是由安全研究員 NetAskari 發現的，他在百度伺服器上的一個未加密的 Elasticsearch 資料庫中找到它後，與 TechCrunch 分享了一個樣本。這並不表示任何公司有任何參與——各種組織都會將資料存放在這些提供商中。沒有任何跡象表明，究竟是誰建立了這組資料，但記錄顯示資料是最近的，最新的條目日期為 2024 年 12 月。

AI 系統的執行與目標

這套系統的創造者以類似於人們提示 ChatGPT 的方式，要求一個未命名的大型語言模型判斷一篇內容是否與政治、社會生活和軍事相關的敏感話題有關。這些內容被認為是「最高優先線序」，需要立即標記。優先線序最高的話題包括污染和食品安全醜聞、金融欺詐和勞資糾紛，這些都是中國的熱點問題，有時會導致公眾抗議——例如 2012 年的什邡反污染抗議活動。任何形式的「政治諷刺」都被明確針對。例如，如果有人使用歷史類比來談論「當前政治人物」，那必須立即標記，同樣必須標記與「臺灣政治」相關的任何內容。軍事事務也被廣泛針對，包括軍事行動、演習和武器的報導。

訓練資料的內容與意義

從這 133,000 個例子中，TechCrunch 收集了 10 個代表性的內容片段。可能引發社會動盪的話題是一個反覆出現的主題。例如，一個片段是一位企業主抱怨腐敗的地方警察勒索企業家的貼文，這是中國經濟掙扎時日益嚴重的問題。另一個內容片段哀嘆中國的農村貧困，描述只有老人和孩子留下的破敗小鎮。還有一篇新聞報導提到中國共產黨（CCP）因嚴重腐敗和相信「迷信」而不是馬克思主義而開除了一名地方官員。與臺灣和軍事相關的材料也很多，例如關於臺灣軍事能力的評論和關於一種新型中國戰鬥機的細節。TechCrunch 的搜尋顯示，資料中僅「臺灣」這個詞就提到了超過 15,000 次。看似微妙的異議似乎也被針對。一個包含在資料庫中的片段是一個關於權力短暫性的軼事，使用了流行的中國成語「樹倒猢猻散」。由於中國的專制政治體制，權力轉移是一個特別敏感的話題。

「輿論工作」與政府的目標

這組資料庫中沒有任何關於其創造者的訊息。但它確實說它是為「輿論工作」而設計的，這提供了一個強烈的線索，表明它是為了服務中國政府的目標，一位專家告訴 TechCrunch。權利組織 Article 19 的亞洲專案經理 Michael Caster 解釋說，「輿論工作」由強大的中國政府監管機構——中國網路空間管理局（CAC）監督，通常指的是審查和宣傳工作。最終目標是確保中國政府的敘事線上上受到保護，而任何替代觀點都被清除。中國總統習近平本人也將網際網路描述為中共「輿論工作」的「前線」。

壓迫的智慧化與未來的挑戰

TechCrunch 檢查的這組資料庫是專制政府尋求利用 AI 進行壓迫目的的最新證據。上個月，OpenAI 發布了一份報告，揭示了一個未識別的行為者，可能來自中國，使用生成性 AI 監控社交媒體對話——特別是那些倡導針對中國的人權抗議的對話，並將其轉發給中國政府。OpenAI 還發現該技術被用來生成對一位著名的中國異議人士蔡霞的高度批評性評論。傳統上，中國的審查方法依賴於更基本的算法，自動阻止提及黑名單詞彙的內容，如「天安門大屠殺」或「習近平」，許多使用者在首次使用 DeepSeek 時就經歷過這種情況。但新的 AI 技術，如大型語言模型，可以透過在廣泛範圍內找到甚至是微妙的批評來使審查更加有效。一些 AI 系統還可以隨著它們吸收更多資料而不斷改進。「我認為強調 AI 驅動的審查如何演變，使國家對公共話語的控制更加複雜，這一點至關重要，尤其是在中國 AI 模型如 DeepSeek 正在引起轟動的時候，」蕭強告訴 TechCrunch。

結論：AI 與言論自由的未來

中國 AI 審查機器內幕資料的外洩揭示了 AI 技術如何被用來加固專制政權的控制。這不僅是對中國公民言論自由的挑戰，也是對全球民主和人權的挑戰。隨著 AI 技術的進步，如何在保護言論自由的同時防止其被用於壓迫，成為了一個迫切需要解決的問題。這個事件提醒我們，技術的發展不僅帶來了便利，也帶來了新的挑戰和責任。我們需要共同努力，確保 AI 技術的使用符合道德標準，並保護每個人的基本權利。

AI-中國 AI 審查機器內幕資料外洩

市場觀察

AIGC

Web 3

專案故事

網路議題

產品管理

專案管理

閱讀心得

職涯觀點

日常生活

專案工具

資料收集