產品管理

針對自我監督式推薦系統降低虛假相關性

降低自我監督式推薦系統中的虛假相關性提要:近年來自我監督式學習 (Self-supervised Learning, SSL) 在推薦系統中取得了巨大成功。然而 SSL 推薦模型往往容易受到虛假相關性的影響,從而導致泛化能力不佳。為了降低虛假相關性的影響,現有的解決方案主要分為三類:基於 ID 的自 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

針對自我監督式推薦系統降低虛假相關性

降低自我監督式推薦系統中的虛假相關性

提要:近年來自我監督式學習 (Self-supervised Learning, SSL) 在推薦系統中取得了巨大成功。然而 SSL 推薦模型往往容易受到虛假相關性的影響,從而導致泛化能力不佳。為了降低虛假相關性的影響,現有的解決方案主要分為三類:基於 ID 的自我監督式學習方法、特徵工程方法以及具有資訊選擇功能的方法。然而這些方法都存在一些約束。為理解決這些問題,研究人員提出了一種稱為不變特徵學習 (Invariant Feature Learning, IFL) 的框架,以降低虛假相關性對於 SSL 推薦模型的影響。

問題背景

自我監督式學習 (SSL) 是個人化推薦的最新技術,其核心思想是透過額外的自我區分任務,學習更好的使用者和物品表示。然而由於資料收集過程中的選擇性偏差,訓練資料中不可避免地存在虛假相關性,其中一些虛假特徵與使用者的正向互動呈現出較強的相關性。自我區分任務導致 SSL 模型容易捕捉這些虛假相關性,從而導致泛化能力不佳。

現有的解決方案

當前為了降低虛假相關性對於 SSL 模型的影響,現有的解決方案主要分為三類:

  1. 基於 ID 的自我監督式學習方法:這種方法僅使用使用者和物品的 ID 進行協同過濾,從而可以避免某些虛假特徵的影響。然而對於具有稀疏互動的使用者來說使用者和物品的其他特徵仍然是有用的。
  2. 特徵工程方法:這種方法可以手動或使用人機混合方法識別一組虛假特徵。然後,可以透過捨棄這些特徵來訓練自我監督式學習推薦模型。然而特徵工程方法需要大量的人工標註工作,因此不適用於具有大量使用者和物品特徵的大規模推薦
  3. 具有資訊選擇功能的方法:這種方法可以自動識別訊息豐富的交叉特徵,並在訓練過程中刪除冗餘特徵。然而虛假特徵可能在訓練資料中對於互動預測具有很高的訊息量,從而降低泛化能力。

提出的解決方案:不變特徵學習 (IFL) 框架

為理解決以上問題,研究人員提出了一種稱為不變特徵學習 (Invariant Feature Learning, IFL) 的框架,以降低虛假相關性對於 SSL 推薦模型的影響。

具體而言,IFL 將訓練互動分為多個環境,每個環境具有相似的特徵分佈,但環境之間的分佈會發生變化。分佈的變化將引導遮罩機制捕捉到跨環境的不變特徵,並排除虛假特徵。此外研究人員利用遮罩機制,在增強樣本中丟棄虛假特徵,並透過最大化實際樣本中不變特徵與增強樣本中所有輸入特徵之間的互訊息來推動 SSL 模型忽略虛假特徵,切斷虛假特徵對不變特徵的負面影響。

主要貢獻和效果取證

本研究的主要貢獻如下:

  1. 研究人員指出了自我監督式學習推薦中的虛假相關性,並考慮從多個環境中學習不變特徵。
  2. 研究人員提出了一種模型無關的不變特徵學習框架 (IFL),該框架利用特徵遮罩機制和遮罩引導對比學習來減少自我監督模型中的虛假相關性
  3. 在兩個真實資料集上進行的詳細實驗取證了所提出的不變特徵學習方法在遮蔽虛假特徵和提高自我監督模型泛化能力方面的有效性。

總之透過提出不變特徵學習 (IFL) 框架,研究人員在自我監督式學習推薦模型中有效地降低虛假相關性的影響,提高了模型的泛化能力。

Dataprivacy-自我監督式推薦系統,虛假相關性,降低,監督,推薦
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。