研究人員創造隱私技術保護敏感資料，同時保持高效性

研究人員創造了保護敏感資料並保持效能的隱私技術引言近期，麻省理工學院（MIT）的研究團隊開發了一種機器學習模型，可以從肺部掃描影象預測患者是否患有癌症。他們希望與全球各大醫院共享這個模型，以便臨床醫生能夠在診斷中應用它。但是這裡存在一個問題。為了訓練模型預測癌症，研究人員向其展示了數百萬幅真實的肺部 .... (往下繼續閱讀)

by 江塵
2023/7/15
6 分鐘閱讀時間

A- A A+

文章目錄

研究人員創造了保護敏感資料並保持效能的隱私技術

引言

近期，麻省理工學院（MIT）的研究團隊開發了一種機器學習模型，可以從肺部掃描影象預測患者是否患有癌症。他們希望與全球各大醫院共享這個模型，以便臨床醫生能夠在診斷中應用它。但是這裡存在一個問題。為了訓練模型預測癌症，研究人員向其展示了數百萬幅真實的肺部掃描影象。這些敏感資料現在被編碼到模型的內部執行中，可能會被惡意行為者提取出來。為了避免這種情況，研究人員可以在模型中新增噪音，使對手更難猜測原始資料。然而加入噪音會降低模型的準確性，所以能夠新增的噪音越少越好。MIT 的研究人員現在開發了一種技術，使使用者能夠在保護敏感資料的同時潛在地新增最少量的噪音。他們建立了一個新的隱私指標，稱之為"可能近似準確（PAC）隱私"，並基於該指標構建了一個框架，可以自動確保需要新增的最小噪音量。此外這個框架不需要理解模型的內部執行或者訓練過程，這使得在不同型別的模型和應用中更容易使用。研究人員展示了在多種情況下，與其他方法相比，使用 PAC 隱私所需的保護敏感資料的噪音量要少得多。這可以幫助工程師們在現實世界中建立機器學習模型，以可證實地隱藏訓練資料的方式，同時保持準確性。

定義隱私

在資料隱私中的一個根本問題是：噪音新增到機器學習模型中，對手可以從中恢復多少敏感資料？"微分隱私"是一個常用的隱私定義，它指出只要對手觀察到的發布模型無法推斷出是否將任意個體的資料用於訓練過程，就可以實現隱私。但是要從資料中證實阻止對手區分資料使用的這種方法，往往需要新增大量噪音以掩蓋資料。這種噪音會降低模型的準確性。PAC 隱私從稍微不同的角度看待這個問題。它描述了在新增噪音後，對手重建隨機抽樣或生成的敏感資料的任意部分有多難。例如，如果敏感資料是人臉影象，那麼微分隱私的重點是對手是否能夠判斷某個人的臉是否在資料集中。而 PAC 隱私則可能考慮對手是否能夠提取出一個輪廓 - 一個可以識別為特定人臉的近似輪廓。研究人員確保了 PAC 隱私的定義後，建立了一個算法，自動提示使用者在分享模型之前應該新增多少噪音，以防止對手自信地重建出與敏感資料非常接近的近似值。該算法保證了即使對手具有無窮的計算能力，隱私也得以保護。

算法的優勢

與其他隱私方法不同，PAC 隱私算法不需要理解模型的內部執行或者訓練過程。在實現 PAC 隱私時，使用者可以在開始時指定他們希望的信心水平。例如，使用者可能希望保證對手對所重建的敏感資料的準確度不超過 5%的情況下，不能超過 1%的確信度。PAC 隱私算法會自動提示使用者在模型公開共享之前應該新增的最佳噪音量，以達到這些目標。研究人員指出，"噪音是最佳的，如果您新增的少於我們建議的量，降低模型的效益可能是無效的。但是將噪音新增到神經網路引數的影響是復雜的，我們不能保證模型在新增噪音後的效果"。這也指出了 PAC 隱私的一個約束，該技術無法告知使用者一旦新增噪音後模型將損失多少準確性。此外 PAC 隱私還涉及多次在多個子樣本上對機器學習模型進行訓練，所以計算上比較昂貴。要改善 PAC 隱私，一種方法是修改使用者的機器學習訓練過程，使其更穩定，即在從資料集中對輸入資料進行子抽樣時，輸出模型不會發生太大變化。這種穩定性將使子樣本輸出之間的變異減小，因此 PAC 隱私算法需要更少次執行以確保最佳噪音量，同時也需要新增更少的噪音。穩定的模型還有一個額外的好處，即它們通常具有較小的泛化誤差，這意味著它們可以對先前未見的資料進行更準確的預測，這是機器學習和隱私之間的雙贏局面。

結語

麻省理工學院的研究人員開發的 PAC 隱私技術為保護敏感資料提供了一種新的方法。透過自動確保最佳的噪音新增量，該技術能夠在保持模型效能的同時有效地隱藏敏感資料。與傳統的隱私方法相比，PAC 隱私所需的噪音量更小，這有助於工程師在現實世界的應用中開發可靠的機器學習模型。然而 PAC 隱私技術也存在一些約束，例如它無法預測新增噪音後模型的準確性丟失程度以及在計算上相對昂貴的問題。未來，我們希望更深入地研究穩定性與隱私、隱私與泛化誤差之間的關係，以進一步改進隱私保護技術。總體而言，PAC 隱私的出現為資料隱私保護帶來了新的可能性，並在實踐中體現了潛力。

PrivacyorDataProtection-隱私技術、敏感資料保護、研究人員、高效性

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集

研究人員創造隱私技術保護敏感資料，同時保持高效性

文章目錄

研究人員創造了保護敏感資料並保持效能的隱私技術

引言

定義隱私

算法的優勢

結語

延伸閱讀

「與南方四賤客無關的 Hello Kitty Island Adventure 遊戲居然是真實存在的！」

三星 Galaxy Buds 2 現在比亞馬遜 Prime Day 期間更便宜

江塵