
研究人員開發出精確模擬複雜系統的工具
模擬工具是科學家在設計新演算法時的重要工具,因為在現實世界中測試想法既昂貴又有風險。然而由於在模擬中不可能捕捉到複雜系統的每個細節,研究人員通常只收集少量實際資料,然後在模擬他們想要研究的元件時重播這些資料。這種被稱為蹤跡驅動模擬的方法有時會導致偏見的結果。這意味著研究人員可能會不知不覺地選擇了不是他們評估的最佳演算法,這種演算法在現實資料上的表現比模擬預測的差。
麻省理工學院的研究人員開發了一種新的方法,消除了蹤跡驅動模擬中的偏見來源。透過實現無偏的蹤跡驅動模擬,新技術可以幫助研究人員為各種應用程式設計更好的演算法,包括改善網上影片的質量和提高資料處理系統的效能。
從原因與結果中學習
該研究小組建立了一個名為 CausalSim 的機器學習演算法,它利用因果原理來理解資料蹤跡是如何受到系統行為的影響的,消除了蹤跡驅動模擬中的偏見。CausalSim 可以從蹤跡資料中學習一個系統的內在特徵。透過在保持條件不變的情況下讓新演算法改變結局,CausalSim 告訴研究人員,以和使用現有蹤跡相同的情況下,採用新演算法會對結果產生什麼影響。
研究人員在影片流應用程式的背景下研究了蹤跡驅動模擬。在影片流中,自適應的位元率演算法不斷地根據使用者的頻寬實時決定傳輸的影片質量或位元率。如果收集使用者在影片流期間的實際資料進行蹤跡驅動模擬,然後使用這些資料模擬如果平臺在相同的情況下使用不同的自適應位元率演算法,網路表現會有什麼差異。傳統上,研究人員假設蹤跡資料是外生的,意味著它們不會受到模擬過程中更改的因素的影響。但這通常是一個錯誤的假設,導致對新演算法行為的偏見,使模擬無效。
Alizadeh 解釋說:“我們認識到,以前其他人也認識到,這種模擬方法會產生誤差,但我認為人們不一定知道這些誤差有多大。”為理解決這個問題,Alizadeh 和他的合作者將這個問題作為因果推斷問題。為了收集無偏蹤跡,必須理解不同的原因如何影響觀察到的資料,並進行區分。
從實踐中觀察得出結論
當 they 使用 CausalSim 來設計改進的位元率適應演算法時,CausalSim 指出了一個新變種,其故障率幾乎低於一個被廣泛接受的競爭演算法,卻實現了相同的影片質量。而由他們的專家設計的蹤跡驅動模擬卻預測出相反的結果。他們對真實世界影片流進行了測試,證實了 CausalSim 的正確性。CausalSim 一直提高模擬準確性,導致設計出的演算法錯誤率只有使用基線方法設計的一半。
未來,研究人員希望將 CausalSim 應用於沒有隨機控制實驗資料的情況或者資料恢復因果動態特別困難的情況。他們還希望探索如何設計和監控系統,以使它們更易於進行因果分析。
總的來說這個新方法的發現,為相關的應用領域提供了更好的研究工具,同時也加深了我們對於蹤跡驅動模擬中偏見問題的理解,進一步促進了科學研究的準確性。