
機器能否辨識網路的黑暗面?
網路資訊的負面影響
大權必伴以大責任。就網路而言,這份力量體現在無處不在的資訊供應,但是誰負責確保這些資訊的可靠性和真實性?「惡劣」的資訊帶來嚴重的影響。在網路和社交媒體平臺上,誤導性資訊、宣傳和假新聞盛行,這些資訊可能被武器化,導致網路虐待以及嚴重情況下的社會動盪。南加州大學(Viterbi School of Engineering)資訊科學研究所(ISI)致力於從內部開始解決這個問題的兩個專案,他們致力於開發能夠在遇到這些「惡劣」資訊時行使推理能力的技術。這些技術將為人工審核人員提供幫助,讓他們能夠監控線上平臺並掃描惡意內容。
可信賴的技術
該專案的第一步是檢測自然語言論證中的邏輯謬誤。那麼什麼是邏輯謬誤呢?邏輯謬誤是指在證實一個論點為真時所使用的推理錯誤。它們的起源可以追溯到網路時代之前——相關辯論可以追溯到約 2800 年前的古希臘。在網路的背景下,邏輯謬誤以虛假或具有欺騙性的陳述的形式出現,這些陳述是由網路所帶來的大規模自由訊息交流所產生的。ISI 的研究員菲利普·伊利夫斯基(Filip Ilievski)表示在解決網路訊息共享活動中可能帶來的虛假訊息、假新聞和宣傳等問題之前,找出邏輯謬誤是第一步。伊利夫斯基表示這項工作是首次將多層次檢測邏輯謬誤應用於實踐中。具體而言,這包括要求模型首先判斷該論證是否正確,然後再「更深入地」確保該論證中包含了哪種謬誤。
可解釋的人工智慧
可解釋的人工智慧可以指出邏輯謬誤並對其進行分類的著名方法有兩種:基於案例的推理和原型化方法。伊利夫斯基指出,ISI 的工作是首次將這兩種方法與語言模型結合起來,並使它們能夠應對任意情境和任務。基於案例的推理就像其名字所說的那樣。模型會展示給定論證的舊案例,然後利用這些知識對新論證進行推論。伊利夫斯基解釋道:「你可以說,我不知道如何解決這個論證,但是我有這個舊案例可以讓你用在你面前的新案例上。」原型化方法則是遵循相同的過程,唯一的區別是模型是從一個簡化的基本案例中進行推論,並可以用於特定的例子中。關鍵在於這些模型不僅僅識別出邏輯謬誤,而且給出合理的解釋來支援其判斷,這一行為是伊利夫斯基認為在實踐中的「鼓舞因素」。
人工智慧的最佳助手
這些可解釋的人工智慧如何應用於現實世界中的威脅,如宣傳、虛假訊息和假新聞?伊利夫斯基設想,這些可解釋的人工智慧可以作為幫助監控線上社區的審核人員或分析師的「人類助手工具」。審核人員負責監管數百萬使用者不斷交換想法的活動,而手動檢查謬誤,考慮到其數量和複雜性,是一個巨大的負擔。加入機器學習可以幫助減輕這個負擔。「假設你在社交媒體平臺上有一位審核員,他們想知道某件事是否含有謬誤。如果能夠有這樣的工具提供幫助並顯示可能的謬誤,尤其是當它們與宣傳和潛在的虛假訊息相關時,那會非常有幫助」,伊利夫斯基解釋道。他補充說,可解釋性因素,即人工智慧能夠提供辨識出的謬誤背後的推理,是真正「培養人工智慧和人類框架中信任和使用」的關鍵因素。然而他警告說,可解釋的人工智慧不是我們應該盲目信任的工具。「它們可以使我們的生活更輕鬆,但單靠它們還不夠」,伊利夫斯基指出。
迷因、厭女主義等問題
可解釋的人工智慧還可以學習如何識別包含問題元素的迷因,例如有時遭到歧視和冒犯特定群體或整個社會的「黑暗幽默」。在第二個專案中,該團隊專注於兩種具有問題性的迷因內容:厭女主義和仇恨言論。與伊利夫斯基一起工作的南加州大學研究生‧志瓦爾·蘇拉蒂(Zhivar Sourati)表示透明地檢測迷因中存在的問題性是極其重要的,因為訊息線上上傳播速度非常快。「對於內容審核人員來說能夠及早檢測到這些迷因至關重要,因為它們在社交媒體上,如 Twitter 或 Facebook 上迅速傳播並迅速觸達到大量觀眾。」蘇拉蒂說。
蘇拉蒂說,迷因依賴於比眼見更多的因素。儘管迷因以言簡意賅而聞名(有時只包含一張簡單的圖片),但它們常常反映出很難解釋的文化參考。「你有一張圖片,也許甚至沒有一句話,只有一段文字。它可能是對概念、電影或新聞的指涉,」蘇拉蒂解釋道。「你一下子就知道它很有趣,但很難解釋為什麼,這對人類和機器學習都是如此。」正是這種不可解釋的迷因特質使教導機器學習如何將其分類變得更加具有挑戰性,因為首先它們必須理解它們背後的意圖和含義。
細致入微
伊利夫斯基和蘇拉蒂使用的框架被稱為「基於案例的推理」。基於案例的推理本質上是人類解決問題的方式:從以往的例子中學習,並將這些知識應用於新的例子中。機器被展示了幾個問題迷因的例子以及其原因。然後,蘇拉蒂說,宕機器被要求對可能與已有例子有「一點抽象」的新問題進行分類時,它可以「根據到當前為止所擁有的所有知識來處理新問題」。例如,如果他們特別關注厭女主義,他們可能會問:「這個迷因為什麼會厭女主義?是在羞辱嗎?是對某種刻板印象的描繪嗎?是在物化女性嗎?」他們使用了一個說明性介面來視覺化模型的推理過程,以理解模型預測的原因。這種視覺化策略有助於疑難解答並提高模型的技能。「其中一個好處是我們可以進行更輕鬆的錯誤分析。如果我們的模型在 100 個案例中犯了 20 個錯誤,我們可以開啟這些錯誤並檢視模型在不同人口統計的不同表徵或特定物件方面存在的偏見的模式」,伊利夫斯基解釋道。「也許每次看到冰淇淋時,它會認為那是厭女主義。」
人類和人工智慧的英雄組合
正如邏輯謬誤的檢測一樣,迷因分類也不能完全自動完成,需要人工智慧與人類的協作。儘管如此伊利夫斯基和蘇拉蒂的研究結果為人工智慧在幫助人類檢測迷因中的仇恨言論和厭女主義方面顯示了一個有希望的未來。伊利夫斯基稱,理解迷因的複雜性,或者正如他所說的「驚喜元素」,使這個主題對他們來說尤其有趣。「從人工智慧的角度來看,這個過程非常有趣,因為迷因中有隱含的訊息,」伊利夫斯基說。「其中有文化和語境的維度以及創意和創造者個人特有的概念。所有這些因素使這個專案尤其令人興奮。」ISI 團隊為其他研究人員提供了他們的發現和程式碼,希望未來的工作將繼續發展人工智慧在幫助人們對抗線上上危險和有害內容方面的能力。
延伸閱讀
- 美國停止對俄羅斯的進攻性網路行動,背後原因是什麼?
- 英國深入調查 TikTok、Reddit 和 Imgur 如何保障兒童隱私!
- 「Skype 結束營運,卻留下人人可享的端對端加密遺產!」
- 揭開 Mistral AI 的神祕面紗:揭示 OpenAI 競爭者的所有祕密!
- 揭露!研究人員發現不明 Android 漏洞,入侵學生手機的驚人手法
- 「擺脫大企業監控!這些替代應用幫你重拾網路自由」
- 《Anagram:以遊戲化方式提升員工網路安全意識》
- 駭客攻擊澳洲 IVF 供應商 Genea,敏感病患資料遭公佈!
- 《警惕!上千個曾曝光的 GitHub 私有庫,仍可被 Copilot 輕鬆存取》
- 全方位理解 Anthropic 的 AI:揭開 Claude 的神祕面紗!