
降低自我監督式推薦系統中的虛假相關性
提要:近年來自我監督式學習 (Self-supervised Learning, SSL) 在推薦系統中取得了巨大成功。然而 SSL 推薦模型往往容易受到虛假相關性的影響,從而導致泛化能力不佳。為了降低虛假相關性的影響,現有的解決方案主要分為三類:基於 ID 的自我監督式學習方法、特徵工程方法以及具有資訊選擇功能的方法。然而這些方法都存在一些約束。為理解決這些問題,研究人員提出了一種稱為不變特徵學習 (Invariant Feature Learning, IFL) 的框架,以降低虛假相關性對於 SSL 推薦模型的影響。
問題背景
自我監督式學習 (SSL) 是個人化推薦的最新技術,其核心思想是透過額外的自我區分任務,學習更好的使用者和物品表示。然而由於資料收集過程中的選擇性偏差,訓練資料中不可避免地存在虛假相關性,其中一些虛假特徵與使用者的正向互動呈現出較強的相關性。自我區分任務導致 SSL 模型容易捕捉這些虛假相關性,從而導致泛化能力不佳。
現有的解決方案
當前為了降低虛假相關性對於 SSL 模型的影響,現有的解決方案主要分為三類:
- 基於 ID 的自我監督式學習方法:這種方法僅使用使用者和物品的 ID 進行協同過濾,從而可以避免某些虛假特徵的影響。然而對於具有稀疏互動的使用者來說使用者和物品的其他特徵仍然是有用的。
- 特徵工程方法:這種方法可以手動或使用人機混合方法識別一組虛假特徵。然後,可以透過捨棄這些特徵來訓練自我監督式學習推薦模型。然而特徵工程方法需要大量的人工標註工作,因此不適用於具有大量使用者和物品特徵的大規模推薦。
- 具有資訊選擇功能的方法:這種方法可以自動識別訊息豐富的交叉特徵,並在訓練過程中刪除冗餘特徵。然而虛假特徵可能在訓練資料中對於互動預測具有很高的訊息量,從而降低泛化能力。
提出的解決方案:不變特徵學習 (IFL) 框架
為理解決以上問題,研究人員提出了一種稱為不變特徵學習 (Invariant Feature Learning, IFL) 的框架,以降低虛假相關性對於 SSL 推薦模型的影響。
具體而言,IFL 將訓練互動分為多個環境,每個環境具有相似的特徵分佈,但環境之間的分佈會發生變化。分佈的變化將引導遮罩機制捕捉到跨環境的不變特徵,並排除虛假特徵。此外研究人員利用遮罩機制,在增強樣本中丟棄虛假特徵,並透過最大化實際樣本中不變特徵與增強樣本中所有輸入特徵之間的互訊息來推動 SSL 模型忽略虛假特徵,切斷虛假特徵對不變特徵的負面影響。
主要貢獻和效果取證
本研究的主要貢獻如下:
- 研究人員指出了自我監督式學習推薦中的虛假相關性,並考慮從多個環境中學習不變特徵。
- 研究人員提出了一種模型無關的不變特徵學習框架 (IFL),該框架利用特徵遮罩機制和遮罩引導對比學習來減少自我監督模型中的虛假相關性。
- 在兩個真實資料集上進行的詳細實驗取證了所提出的不變特徵學習方法在遮蔽虛假特徵和提高自我監督模型泛化能力方面的有效性。
總之透過提出不變特徵學習 (IFL) 框架,研究人員在自我監督式學習推薦模型中有效地降低了虛假相關性的影響,提高了模型的泛化能力。
延伸閱讀
- 「Audible 推出全新 AI 功能,打造專屬你的有聲書推薦!聽書體驗再升級!」
- 亞馬遜旗下的 Audible 將利用 Prime Video 資料進行有聲書推薦,與 Spotify 競爭加劇
- 亞馬遜旗下的 Audible 將測試使用 Prime Video 資料進行有聲書推薦
- Karma3 Labs 獲 450 萬美元融資,以評分和推薦改善 web3 的信任
- Instagram 及 Threads 將不再「主動」推薦政治內容
- 2023 年最佳播客、串流裝置贈禮推薦
- 10 個我們推薦的訂閱盒,適合在這個假期季節送禮
- 特斯拉愛車損壞慘重,Hertz 大幅降低電動車計畫
- 最好的智慧插座評比及推薦
- Recom + Recs:分享你最愛地點的社交「錢包」