網路議題

在新的監管時代中,資料去識別化:最佳實踐 資料去識別化: 在新的監管時代中的最佳實踐

資料匿名化:保護個人隱私的挑戰和方法背景隨著大量客戶資料的可用性越來越高,從這些資料中獲取盡可能多的知識對於組織來說變得越來越重要。特別是在資料在組織內部、第三方以及雲端上的傳輸和使用時,將資料進行身份去識別化變得越來越重要。自從 90 年代中期以來,美國的醫療保健專業人士就已經意識到這一必要性,並 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

在新的監管時代中,資料去識別化:最佳實踐

資料去識別化: 在新的監管時代中的最佳實踐

資料匿名化:保護個人隱私的挑戰和方法

背景

隨著大量客戶資料的可用性越來越高,從這些資料中獲取盡可能多的知識對於組織來說變得越來越重要。特別是在資料在組織內部、第三方以及雲端上的傳輸和使用時,將資料進行身份去識別化變得越來越重要。自從 90 年代中期以來,美國的醫療保健專業人士就已經意識到這一必要性,並根據“醫療保健訊息便攜性和責任法案”(HIPAA)的隱私標準工作。最近,相似的隱私擔憂,尤其是關於個人可識別訊息(PII)的問題,已經成為全球監管機構、消費者和企業的頭等大事。IT 研究公司 Gartner 估計,到 2024 年底,全球 75%的消費者訊息將受到某種形式的規範。

加利福尼亞州最近透過了《加利福尼亞消費者隱私法案》(CCPA)和《加利福尼亞隱私權利法案》(CPRA),兩者都關注消費者資料和隱私。而歐盟的《通用資料保護法規》(GDPR)也開始受到嚴格執行。Facebook 最近因將資料從歐洲轉移到美國而被處以 13 億美元罰款,這是對監管機構對這個問題的嚴肅提醒。Infosys Consulting 的合作夥伴 Joseph Williams 表示如果那些資料已經進行了去識別化,或許就不會有這樣的罰款。此外對於那些不能至少給人一種保護客戶個人訊息的外觀的組織來說一旦公司受到侵害並造成訊息被網路罪犯入侵的情況,就會面臨聲譽威脅。網路安全專家相信,在過去十年中,大多數消費者都成為了無意中受害於資料洩露的犧牲品。其中大部分資料在暗網上出售。有人認為,由於如今透過交叉相關公開資料很容易識別出個人身份,任何資料的去識別化都只是一種道德虛擬訊號的做法,Williams 表示:“當您將 AI 的處理能力與暗網、社交媒體和公開資料相結合時,它們突然可以進入全部自動發現模式,並發現出各種有趣的事情。因此資料去識別化作為一種技術方法,是監管機構用來說明'我們已經加重了這些企業的負擔,以保護您的隱私'的方式。”

資料去識別化技術和方法

同 Protiviti 商業諮詢公司的資料隱私團隊負責人 Sameer Ansari 介紹,當今有很多種資料去識別化的方法。主要的挑戰不一定是技術上的(盡管大量結構化和非結構化資料的去識別化任務很具挑戰性),而是選擇使用對業務影響最小的技術來實現所需的結果。“其中一部分取決於問題的核心所在,” Ansari 說,“因此從您尋求解決方案的原因和您所在的行業開始,可能有一些用例在那裡,您可能會說:“聽,掩飾(例如)不是一個選項。”這是一個挑戰。這將很大程度上依賴於用例,不幸的是。”

今天正在使用的一種技術是去識別化。這是將個人可識別訊息(如社會保障號碼、位址和電子郵件位址)用符號(如星號)遮蔽,或用合成或虛假資料替換的方法。Rice 大學電腦科學副教授和 ThirdAI 公司的創始人 Anshumali Shrivastava 解釋了聚合方法,即將資料集合成年齡段等群體,這也是一種流行而有效的方法。IEEE 的高級會員 Kayne McGladrey 表示 Tokenization 是一種方法,它替換敏感資料為一致的替換字元串,且如果出現資料泄露,這些字元串都沒有意義的價值。“美國最常見的標準之一是 HIPAA 安全港方法,它要求刪除與個人、近親、僱主和家庭成員有關的所有 18 個識別符訊息,”他說。

資料去識別化的新趨勢

Infosys 的 Joseph Williams 表示「隱私保險箱」方法,即資料透過"保險箱"進行去識別化,正變得越來越受歡迎。保險箱可以應用各種去識別化技術,並依靠加密金鑰來防止資料在透過保險箱後重新被識別出來。“不會對所有資料這樣做,但是...保險箱會對去識別化的個人識別訊息(PII)在檢視我的記錄的客戶支援人員(例如)進行遮蔽。[真實資料] 仍然存在,對公司仍然有用,但是...華盛頓州的客戶支援人員沒有理由知道我的出生日期。” IEEE 的 Kayne McGladrey 表示機密運算也是一種保護在使用中的資料的新興技術。“機密計算可以允許進行來自多方的資料處理,而不將輸入資料與其他方共享。”他說:“例如,如果一個組織想要對從多個第三方組織收集的大量醫療資料進行處理,經過正確配置的機密計算可以潛在地允許這些第三方提供其資料以供建設一個整體處理。在這種情況下,即使是雲提供商也無法看到第三方提供的明文資料或其結果。”

另一個引起去識別化倡導者興趣的領域是為研究目的生成合成資料,Shrivastava 說。在這種方法中,資料被生成以模擬它所替換的真實資料。由於生成的資料保留了原始訊息的統計特徵和模式,資料質量不會受到損害。這一方法降低了在共享用於科學研究和研究的資料集時曝露敏感訊息的風險。

面臨的挑戰

對於大多陣列織來說資料去識別化不會保護它們免受嚴重資料洩露的影響,但它將幫助他們確保在業務常規執行的過程中所分享的客戶資料免於隨意或無知的濫用和曝光。幸運的是,從技術角度來看,有很多方法可以實現這一目標,包括使用來自組織現有軟體供應商(如 Salesforce 或 Snowflake)的服務。大多陣列織面臨的主要挑戰是理解何時和何地需要去識別化以及在這種情況下使用哪種方法,既能實現這一目的,又不會對其他業務流程造成連鎖反應。

探索我們網站的 Briefing 以獲得更多有關企業技術變革的知識。

Privacy-資料保護,監管要求,個人隱私,資料安全,資料匿名化

延伸閱讀

江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。