一、 前言
2020年全球新冠疫情肆虐,迫使大家在家辦公、在家購物…,再加上無論經濟還是制造還是企業全面數字化轉型,產生的海量數據導致的人們對數字數據的安全憂慮持續上升,如何保護隱私日益被大眾關注?在此背景下,全世界在科技趨勢預測領域非常著名的咨詢公司Gartner,第一次將隱私增強計算技術(PEC)納入了它們預測2021年的九大重要戰略科技趨勢之一。作為專業從事信息安全研究、意圖引領科技發展趨勢的我們,在已經快邁入2021年第二個季度的當下,對這一技術應該進行深入研究。
二、隱私增強計算是指什么?
隱私增強計算技術在今天雖然知名度很低,但是它對于未來的重要性,絕對不容小覷。
1、隱私增強計算的誕生
隱私增強計算技術的出現完全來源于數字化經濟的全面繁榮。國內:在過去這一整年,我們經常會看到這樣一類新聞,比如像是“被困在算法里的外賣小哥”,或者“大數據殺熟”…國外,不時報道出被“科技巨頭操縱的美國大選”、歐洲某國根據GDPR有關條款對Google、Facebook…等巨頭開出罰單,責令其停止在外部網站上收集用戶瀏覽習慣的數據等等。
不論我們是認同還是反對這些說法,不可否認的是,全世界范圍內對于大型科技企業的信任程度是遠不如以前了。其中最重要的原因,就是很多人開始感受到這些科技巨頭可能正在利用他們收集海量用戶數據的優勢,侵犯人們的隱私,甚至是謀取不當利益。
面對這個現象,業界有兩種截然不同的態度。一種態度是認為我們現在個人數據隱私權的犧牲,是技術進步的必然代價,沒有什么可大驚小怪的。另外一種態度是覺得這些大公司實在太可惡了,是在濫用我們的個人數據,一定要制裁它們。
那有沒有一種技術,既可以100%地保護我們的個人數據不被濫用,同時又能夠確保將我們的各種需求,及時地告知這些科技企業,讓它們能夠給我們提供高效的服務呢?
這個問題,今天在很多科學家的心目中已經有了答案--那就是隱私增強計算技術。
2、什么是隱私增強計算?
所謂隱私增強計算并不是某一項具體的技術,而是一大類既可以保護用戶隱私、又能夠實現數據計算效果的新興計算技術的統稱。
不斷增長的計算能力、每天生成的海量信息、以及越發廣泛的數據可用性,使得過去似乎難以想象的事情現在可能性劇增。例如,使用智能手機可能會導致個人資料中包含有敏感屬性的個人資料;個人的眾多私密信息可能可以從聯系人的相關信息中推斷出來;隨著數據收集和使用的擴大,對可用數據集的分析可以十分容易地提取出個人和有關的隱私信息…此外,數據敏感性還不僅限于個人隱私。例如,數據可能涉及商業秘密甚至與國家秘密有關。
個人或組織可能希望共享數據,但又希望能夠限制與誰共享信息、共享什么信息。隱私增強計算技術就是通過不同技術手段和方式來幫助實現此類限制。
需要說明的是,隱私增強計算技術的使用本身并不能自動分析出是否合法、合乎道德或值得信賴,但可以肯定的是:實施隱私增強計算技術可以確保使用數據風險可控、針對特定隱私的保護有力有效。
3、當前的隱私增強計算技術功能和局限性
隱私增加計算技術給數據帶來哪些保護?隱私增強計算技術的使用都有哪些注意事項和局限性?隱私增強計算技術主流方法都有哪些呢?
(1)隱私增強計算技術提供什么樣的保護?
當前沒有適用于隱私保護數據分析的每種情況的技術,可以使用不同的隱私增強計算技術來實現不同的目標。通過隱私增強計算技術可提供:
安全地提供對私有數據集的訪問
能夠對多個組織持有的私人數據進行聯合分析
將私有數據安全地外包給云計算方
分散依賴用戶數據的服務
值得注意的是某些隱私增強計算技術可能更適合組織使用(企業對企業:B2B),而其他隱私增強計算技術則更適合個人使用(企業對消費者:B2C)。例如,云服務提供商可能希望使用基于加密的安全硬件或技術來保護其平臺上的代碼和數據,而個人可能會受益于使用個人數據存儲和其他為個人設計的隱私增強計算技術。
因此選擇隱私增強計算技術需要考慮控制、監督或信任模型的形式。在任何給定的系統中,無論是集中式、分散式還是分布式,信任都取決于上下文以及誰能“看到”未加密的數據。大多數隱私增強計算技術都起源于密碼學領域,而密碼學通常是針對“攻擊者”模型(或威脅模型)提出的,即某些系統可能遭受的攻擊。這對這些隱私增強計算技術管理數據訪問的方式有影響,例如:
安全的多方計算特別消除了對中央信任機構的需要,否則各方將需要與該中心共享信息。
集中式和分布式差分隱私具有不同的信任模型:在集中式(又稱為“全局”)差分隱私中,在釋放輸出時會添加噪聲,這意味著信任位于中央組織中;而在分布式差分隱私中,在收集數據時會添加“本地”差分隱私噪聲。
個人數據存儲為個人提供了選擇和控制他們想要信任數據的方式。此外,也可能提供在本地處理數據的可能性,而不是將原始數據發送給中央機構,中央機構的數據集中使其成為黑客的重要且誘人的目標。
(2)五個主流隱私增強計算技術技術的功能和局限性
目前隱私增強計算技術主要技術領域有五個,它們特別有希望實現隱私保護計算(還有其他可用技術,例如群簽名、基于屬性的加密、直接匿名證明等,它們具有不同成熟度)。它們代表了一套非常多樣化的方法,突出了不同系統安全性/硬件、統計信息和密碼學解決相似問題的不同方式。
* 同態加密
同態加密是一種加密形式,它允許對加密數據進行某些計算,從而生成加密結果,該結果在解密后與加密前對數據執行的相同操作的結果相匹配。尤其可以使用它來對敏感數據的某些特定操作安全地外包給云或其他第三方組織。它也可以與其他隱私增強計算技術結合使用,以安全地共享數據。
在全部或部分不信任計算環境且不應訪問敏感數據的情況下,同態加密可用于分析數據。同態加密提供了機密性,可用于解決“不安全”和“暴露”問題,以及在數據集或輸出中揭示與個人或組織相關的敏感屬性的風險。
同態加密方法有多種變體,可以以不同的方式使用。完全同態加密(FHE)是指可以在數據上計算任何多項式函數的加密方案,這意味著無數的加法和乘法。但是,仍處于研究階段的FHE在實踐中效率低下,這就是為什么可以使用有限數量或幾種類型的操作的方案更為普遍的原因--所謂的同態加密(SHE)或部分同態加密(PHE)。SHE是一種加密,它支持對加密數據進行有限數量的加法和乘法運算,并且預先確定。PHE是僅支持加法或乘法的加密(也稱為加法同態加密和乘法同態加密)。同態加密可以啟用其他隱私增強計算技術,例如安全的多方計算。
同態加密最早是在1978年提出的,密碼學家早就意識到基于經典群論的公鑰加密自然具有同態性。在此基礎上,提出了未來30年的PHE計劃。第一個FHE方案僅在2009年由Craig Gentry提出,明確地解決了密碼學領域一個長期存在的開放性問題。所有早期方案都是很不實用的,因為計算時間特別長。從2017年開始,在努力標準化該技術之后,SHE已開始在商業上可行。尤其是北美的行業、政府和學術界發布了三本白皮書(2017年),內容涉及安全性、應用程序編程接口(API)和應用程序,以及參數選擇標準草案。
同態加密局限性主要體現于:在分析人員希望進行任意計算的情況下不適合使用同態加密。雖然PHE通常被使用-例如用于安全數據庫查詢或委托計算,但SHE和FHE是當前正在進行的研究,最實用的SHE和FHE方案基于所謂的基于格的構造,其中研究集中于有效的編碼和噪聲管理技術。這種類型的加密方案依賴于噪聲加密,每次加密操作都會增加此類噪聲,如果噪聲超過某個閾值,解密將失敗。
與未加密數據計算相比,同態加密在計算上極為昂貴且吞吐量較低。加密可能會導致數據量大增,這可能會導致嚴重的帶寬問題。同樣,計算需要表示為多項式,這在實踐中可能是一個限制。對于FHE,運行時間隨著操作次數(加法或乘法)的增加而急劇增加。
此外,信任管理方面,考慮到當前的進展,使用同態加密可能很難讓客戶端驗證服務器是否執行了它聲稱的功能--這也是當前研究的重點。
* 可信執行環境
可信執行環境(TEE)是主處理器內部的安全區域。TEE與系統的其余部分是隔離的,因此操作系統或管理程序無法讀取TEE中的代碼。但是,TEE可以訪問外部的內存。TEE還可通過加密保護“靜止”數據不被分析。
與同態加密一樣,TEE可用于將敏感數據的計算安全地外包給云。TEE代替了加密解決方案,而是提供了一種基于硬件的方式,以確保將計算外包到的服務器而不用暴露數據和代碼。例如,TEE是存儲主加密密鑰的好地方。
此外,TEE可以支持任何類型的分析。它們的使用成本很低:實際的計算是對未加密的數據執行的,并且不需要向數據中添加任何噪聲。
TEE可用于解決數據集或輸出中的“不安全”和“暴露”問題,沒有暴露個人或組織相關的數據的敏感屬性的風險。
TEE的研究起源于1990年代IBM在可編程安全協處理器的開發中。這些協處理器允許在敵對環境中保護應用程序的安全,同時保持高性能。在2000年代初期,ARM發布了TrustZone,這是一組硬件模塊,可以在所謂安全區(運行經過身份驗證和加密的區域)和常規區(運行不受信任的軟件)之間劃分系統資源。在2010年初,英特爾推出了自己的安全處理器,稱為軟件保護擴展(SGX)。
TEE當前的挑戰和局限性集中于與其他現有的加密技術一樣,保護TEE中的安全密鑰仍然是一個難題,尤其特別需要保護生成安全加密功能的系統。
*安全的多方計算
安全多方計算(MPC)是與啟用私有分布式計算有關的密碼術語。MPC協議允許對合并的數據進行計算或分析,而無需各方公開自己的部分。特別是,當兩個或兩個以上的參與方想要對其合并數據進行分析,但出于法律或其他原因,他們無法彼此共享數據時,可以使用該方法。
例如,MPC可以允許投標者在不透露任何實際出價的情況下確定誰贏得了標。MPC還可以用于允許進行私有多方機器學習,在這種情況下,不同的各方可以彼此發送加密的數據,并且他們可以在其組合數據上訓練機器學習模型,而不會看到彼此的透明數據。這消除了對可信任的中央機構的需求,以往中央機構需要通過匯總所有數據并將其解密來執行計算。MPC也表現出分布式計算的優點,使用MPC可以解決“不安全”和“暴露”的問題,以及在數據集或輸出中暴露與個人或組織相關的敏感屬性的風險。
可以使用MPC技術來實現私有集交叉點(PSI),其中兩個或多個參與方比較數據集而不以未加密的形式顯示數據集。最后,每一方都知道彼此有哪些共同點。當前,有一些可擴展的PSI開源實現,私有信息檢索(PIR)也可以使用MPC技術實現,并允許用戶查詢數據庫,同時隱藏檢索到的數據的身份。Google正在使用PIR來警告用戶其密碼可能不安全。
MPC的第一個原型可以追溯到2004年,用于多方計算的實際開發和商業產品于2010年開始出現。最初的商業應用是在拍賣中,例如,MPC被用來以隱私保護的方式在丹麥的甜菜生產商之間重新分配丹麥在歐盟固定的生產配額,而不會泄露商業敏感信息。最近的理論發展進一步使使用MPC進行數據分析成為可能。
當前MPC的挑戰和局限性主要集中于:MPC顯著增加了計算給定功能所需的時間,部分原因是跨網絡傳送加密數據(延遲)會產生延遲。自從第一個實現問世以來,計算時間已經減少很大,但仍需要進一步改進以使MPC更加實用。
*個人數據存儲
個人數據存儲(PDS)是一種系統,可為個人提供有關其數據的訪問和控制權,以便他們可以決定要共享哪些信息以及與誰共享。PDS對個人生成的數據提供透明度和代理權,他們可以授權人們管理和處理有關他們的數據。
其他四個隱私增強計算技術不同,PDS是面向消費者的應用程序和服務,可以由不同種類的隱私增強計算技術支持。它們提供了隱私增強計算技術的目標之一--使人們能夠更好地控制數據。
PDS支持分布式系統,其中數據是在系統的“邊緣”存儲和處理的,而不是集中的。例如,可以將機器學習算法發送給數據,而不是將數據發送給算法。分布式數據和計算解決了許多問題,例如“蜜罐”問題,擁有數百萬條記錄的組織自然構成了一個“蜜罐”,在經濟上對黑客很有吸引力。
分布式架構還可以緩解由于集中了全球大部分數據的大型高科技公司帶來的功率不對稱性。
PDS解決了“匯總”,“排除”和“披露”的問題,以及不希望存在的信息共享風險。
PDS可以是手機或平板電腦上的物理盒裝設備或應用程序,他們的設計可以結合許多其他隱私增強計算技術。
PDS當前面臨的挑戰和局限性主要體現于:基于集中式體系結構的現有業務模型和當前數字化貨幣并不鼓勵PDS的發展。目前,個人數據本身的貨幣價值不高,而匯總數據則更有利可圖。特別是需要從經濟學和社會科學領域進行進一步的研究,以研究替代模型。例如,已經出現了這樣的替代模型,萬維網的發明者蒂姆?伯納斯?李一直在研究去中心化的Web平臺,通過該平臺,各個用戶可以將有關他們的數據存儲在不同的個人在線數據存儲(POD)中。為了使PDS有效,具有不同技術經驗水平的個人必須能夠訪問并與之互動。用戶參與對他們的成功至關重要,界面設計也是其中的重要組成部分,用戶界面必須易于訪問和吸引人,這為PDS的研發增加了新的維度。
*私保護機器學習
機器學習是一組強大的技術,可讓計算機從數據中學習。有許多有前途的研究和實踐領域,隱私保護的機器學習指的是不同的一系列方法,例如:
(1) 使用綜合數據進行機器學習
綜合數據是由算法生成的數據,而不是來自真實事件的數據;如差分私有機器學習,差分私有機器學習模型不提供比特定個體更多的信息,而不是該個體未包含在訓練數據集中。這可以通過分布式差分隱私(在訓練數據的收集期間添加噪聲)或通過集中差分隱私(將噪聲添加到輸出)來實現。同樣,差分私有綜合數據可用于創建保留真實示例數據屬性的數據,同時防止模型反轉攻擊;
(2)使用同態加密的隱私保護機器學習
同態加密可以支持某些形式的機器學習。它尤其可以支撐“隱私保護預測”。
(3)使用MPC的私人多方機器學習
利用私有的多方機器學習,不同的各方可以彼此發送加密的消息,并獲得他們想要計算的模型,而無需查看彼此的數據,也不需要可信的中央機構。
(4)使用TEE來保護多方機器學習
在這種情況下,多個用戶會在合并的加密數據上計算機器學習模型,而不會向彼此或云透露他們的未加密數據。
(5)聯合學習
聯合學習是一種新興的方法,允許出于隱私或實際原因在分散數據上訓練機器學習模型。中央服務器協調網絡的節點,每個節點都有訓練數據,每個節點都訓練一個本地模型,并且該模型與中央服務器共享。換句話說,數據在設備級別受到保護。谷歌在2016年發布了這樣的聯合學習算法。
三、 對隱私增強計算的理解
隱私增強計算技術看起來比較復雜抽象,其實可以通俗地理解成三個方面:
1、它是我們每一個個體與大型科技公司之間的一層隔離區
今天我們在各類APP上的數據,大部分都是儲存在云端的數據中心的。APP背后的企業,如果真的想查看任何一個用戶的數據,只需要執行一行代碼就可以了。也就是說,用戶的數據安全,本質上完全依賴于提供服務的企業內部管理的水平,以及企業本身的道德責任感。
隱私增強計算技術,就是試圖在用戶和APP之間建立一個數據的隔離區,用戶所有的關鍵信息都是在這一片隔離區里進行存儲和計算,將企業隔離在隔離區的外面當觀眾,他們只能拿到隔離區里面給出的一些指定需求。這樣一來,企業就沒有辦法未經用戶同意,悄悄地使用APP里的用戶數據了。
2、它是我們每一個人的隱私數據在網絡世界里的鎧甲
有了這層鎧甲之后,我們每一個人的關鍵數據,就不再是赤身裸體地走進這個隔離區了,而是會得到非常嚴格的保護。比如,用我們最熟悉的社交場景來舉例子,這層鎧甲的功能就相當于你想在通訊APP上給朋友發一句話,但是你并不想讓通訊APP看到這句話的內容,所以呢,就先讓這句話穿上了一層鎧甲,這層鎧甲到了你的朋友那里才會卸下來。這樣就避免了像通訊APP一樣的,所謂的信息二傳手,偷看信息內容。這一類信息鎧甲的功能,在隱私增強計算領域中通常是以各類密碼學技術作為底層原理的。而在這個方面,現在國外也已經有一些即時通信應用,在嘗試給用戶信息穿上這樣的鎧甲,讓不希望被臉書、推特窺探隱私的人群,也有自己可以放心溝通的網絡空間。
3、它能夠為各種類型的數據提供一個安全的交流中心
隱私增強計算的這個安全交流中心的功能,其實意義最重大。數據在今天已經開始指導各種產品和服務的設計、生產環節了;有價值的交叉數據很可能是我們未來幾十年里如同石油一般重要的資源。按照這樣一個邏輯,開發一種能夠允許大家安全地保存、交換和運算數據的平臺,有巨大社會意義。
總而言之,在今天我們看隱私增強計算技術,往小了說是一種可以保護個人隱私的方便工具;往大了說,它是人類社會在未來能夠真正將數據作為一種生產資料,去使用和交換的基礎性技術。隱私增強計算,是整個世界今天都沒有辦法回避的一項必然會發生的技術。因此Gartner才將其列入2021年九大重要戰略科技趨勢之一。
四、啟示與建議
面對隱私增強計算技術已經迫在眉睫的趨勢,啟示與建議如下:
1、技術帶來的挑戰技術應對
新技術帶來的新問題最好的解決方案不是管控、不是放任,最好的方案依然是依托技術創新的技術!
自從互聯網出現以來,帶來的各種技術進步、經濟繁榮、生活便捷、社會變革的同時也帶來了各種新問題,數據爆炸式增長、傳統商業模式的顛覆、病毒肆虐、安全風險大增…,在采取各種嚴格管控政策措施的嘗試后,最終解決得最為妥帖的依然是依托如云計算、網絡安全防護甚至人工智能等新技術,當然這些新技術的引入又會帶來新的風險和問題,但解決新問題毫無疑問還得依托新技術、新方法,正是這種矛盾的沖突、迭代中推動了技術的進步乃至人類社會發展的步伐。歷史可能不斷反復重現,但技術卻永遠向前。
2、進一步的加大研發投入
隱私增強計算技術提供了多種應用的可能性,并為數據分析開辟了新的機會。它們是一組新生但具有潛在顛覆性的技術,它們有可能重塑數據經濟,尤其是改變個人、政府和公司之間的信任關系。但是,在目前的狀態下,這些技術中的許多技術都具有實質性的局限性,例如它們所需的計算資源、耗時等等,并且其中一些仍處于研究階段。既然已經認識到隱私增強計算技術的潛力,并有望大規模地使用,因此需要進一步的研究和開發。
展望未來,開發適合的解決方案將需要跨學科的研究和開發工作;它還需要不斷創新,以適應隨著數據和計算能力的提高而出現的新挑戰。例如,對于一個大型組織(例如NHS)實施MPC不能僅靠隱私增強計算技術研究本身來完成;而是需要涉及其他專業領域和專家團隊,必需考慮如何建立一個完整的生態系統,以實現隱私增強計算技術的開發和使用。
政府在推動市場發展方面發揮著關鍵作用。例如,英國政府對此采取了“前傾”方法。國家統計局特別是國家安全機構,已經嘗試并試圖增加隱私增強計算技術的使用。英國艾倫?圖靈研究所(Alan Turing Institute)是英國數據科學與人工智能研究院,在實現多學科方法進行隱私保護數據分析方面發揮著關鍵作用。隱私是該研究所跨多個研究計劃的戰略重點領域,包括國防與安全、人工智能和健康;美國已將大量資金用于隱私增強計算技術的戰略開發。情報高級研究計劃活動(IARPA)特別是在2017年啟動了一項名為“具有降低開銷的同態加密計算技術”的重大計劃(HECTOR)。
政府在推動市場發展方面發揮著關鍵作用。例如,英國政府對此采取了“前傾”方法。國家統計局特別是國家安全機構,已經嘗試并試圖增加隱私增強計算技術的使用。英國艾倫?圖靈研究所(Alan Turing Institute)是英國數據科學與人工智能研究院,在實現多學科方法進行隱私保護數據分析方面發揮著關鍵作用。隱私是該研究所跨多個研究計劃的戰略重點領域,包括國防與安全、人工智能和健康;美國已將大量資金用于隱私增強計算技術的戰略開發。情報高級研究計劃活動(IARPA)特別是在2017年啟動了一項名為“具有降低開銷的同態加密計算技術”的重大計劃(HECTOR)。
3、循序漸進開拓廣闊的市場
隱私增強計算技術可以幫助公共和私營部門開發滿足社會關注的需求的解決方案。這些解決方案可以為數據提供真正的分散和可擴展使用。歐洲率先通過GDPR實施了更嚴格的數據保護法規,從而促進了以消費者為中心的數字市場,世界各國都陸續紛紛推出了自己本國的GDPR,數據隱私增強計算技術市場還是一片未被開發的處女地,發展空間十分廣闊。由于隱私增強計算技術涉及各個方面的多種技術及解決方案,因此在隱私增強計算技術開發過程中的中間成果幾乎可以毫不改變地投入應用,為全面實現隱私增強計算技術做好鋪墊,而不必等到隱私增強計算技術涉及的全部技術和方案的成熟。商務合作 | 開白轉載 | 媒體交流 | 理事服務