特徵選擇新方法 Max-difference maximization criterion 有望提升文字分類效能
一個有效的文字分類模型必須依靠特徵選擇來挑選出高區分度的特徵詞(features)。但在現有的分類準則中,常常無法針對出現率稀少但實際上重要的詞作出正確評斷。為理解決這個問題,一個研究團隊提出了一種名為"Max-difference maximization criterion"(MDMC)的新方法,能夠有效降低稀有詞的重要性,從而提升文字分類的效能。這個研究發表在最新的期刊 Frontiers of Computer Science 上。
ACC2 及現有方法對文字分類的約束
在文字分類中,每個詞都有一個出現率,標明了它在語料庫中的出現頻次。當前現有的文字分類法都以 ACC2 作為評估特徵詞區分度的標準,係以引數 C 和 d1,d2 等量化引數來計算。
然而 ACC2 無法識別一些同樣出現率但區分度不同的詞。現有的改進方法,如標準化差異測量(NDM)、極大極小比率(MMR)和三角比較測量(TCM),雖然在一定程度上解決了 ACC2 的問題,但其需要選擇不同的引數,且難以兼顧稀少詞和普遍詞之間的區分度,往往使模型效能不盡理想。
MDMC 新方法的創新性
鑒於以上現有方法的不足,在 MDMC 方法中,研究團隊提出一種新的權重設計方式,可根據語料庫中不同分類的佔比進行賦權。MDMC 將其與 ACC2 相結合,形成一種新的區分度指標,評估每個詞的重要性,從而更好地捕捉稀少詞的特徵。
MDMC 方法對文字分類效能的提升
在實驗中,研究團隊分別使用 MDMC 和現有的特徵選擇方法(NDM、MMR、TCM、ACC2)來對相同的語料庫進行分類,發現 MDMC 能夠選擇出更多區分度較高的詞,優於其他現有的特徵選擇方法,同時在分類效能上也有明顯提升,在不需要進行過多調整的情況下,使得文字分類更加精準。
因此 MDMC 基於其在特徵選擇和效能提升方面的優勢,被認為是一個有發展潛力的文字分類方法,未來或將得到更廣泛的應用。
結語
本研究顯示特徵選擇在文字分類中的重要性不言而喻。不同的特徵選擇方法都有其優缺點,而 MDMC 方法的出現,將為我們提供一個更全面和高效的選擇方案。未來,隨著文字分析技術的飛速發展,特徵選擇的方法也將不斷升級和最佳化,帶來更多的發展空間。