全文共計7833字,預計閱讀時間10分鐘
來源 | 數據觀(轉載請注明來源)
作者 | 陸寶華 方興 白小勇 錢曉斌 李科 蘇欣
編輯 | 蒲蒲
中共中央、國務院2020年3月30日公開發布了《關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱《意見》),在意見的第六章中,就數據作為生產要素提出了明確意見。 將數據作為生產要素,在社會上的探索已經開展多年了。以貴陽為核心的貴州省對大數據產業進行了探索,BAT等網絡服務商、電信與網絡運營商等近幾年也都有不錯的建樹和積累,同時,對數據在生產過程中的安全也有不少探索,比如DSMM數據安全能力成熟度模型國家標準;全知科技(杭州)公司提出了“數據作為生產資料”和“數據在生產過程中”的安全觀點及相關解決方案等。這些都是非常有意義的探索,可以作為對數據生產要素研究工作的基礎。 但是,我們以往對數據的保護,從等級保護體系到風險評估體系(注:這兩個體系沒有本質上的區別),從國內到國際,普遍是以對“資產”的保護態度,側重以保險柜模式進行保護。因此,我們在數字經濟新階段要面對和解決新問題,比如傳統數字資產保護思路是否會影響到數據作為“生產要素”,是否需要提出一個適應于數據作為“生產要素”的保護體系等。 實際上,早在2016年,筆者在貴陽探索“大數據安全的頂層設計”時,就已經開始遇到了這樣的問題。當時在對大數據的挖掘中,發現了基于數據安全屬性的訪問控制將失效,利用大數據挖掘,可以發現個人隱私,通過已知數據,可以推導出未知數據等帶有生產性質的問題,但是當時還沒有明確將數據作為生產要素,也沒有從數據作為生產要素這一命題出發來思考,也不夠系統化。 數據作為生產要素的思考 “生產要素”概念的提出還要回溯到馬克思歷史唯物主義對“生產力”與“生產關系”的論述,生產力有三要素: 1)勞動力(或勞動能力),是“人的身體即活的人體中存在的、每當人生產某種使用價值時就運用的體力和智力的總和”。 2)勞動資料(也稱勞動手段),是勞動過程中所運用的物質資料或物質條件。 3)勞動對象,即勞動過程中所能加工的一切對象,包括自然物和加工過的原材料。 而五大生產要素本質是生產力的構成:人、物(土地)、財(資本)、技(知識)、數,自古以來都有。“勞動力”是人,“勞動資料”是物、財、技、數,“勞動對象”是物、財、技、數,只是當社會發展到一定階段才成為單列必要。比如狩獵時代生產要素只有人;農耕時代突出了土地;工業時代突出了資本和技術;而數字經濟時代突出了“數據”,所以《意見》中的觀點,本質上是人類社會發展到新階段的“生產力范圍延伸”。 作為生產要素的數據,即有勞動資料的屬性,即在生產過程中要運用的物質資料和物質條件,同時也是勞動對象,即對數據本體進行加工和再生產。 從這五大要素上來看,其他四項要素都具有相對的獨立性,并且這些要素的改變隨著時間一般來說是漸變的過程,一般不會發生突變。 數據與其它要素之間,既具備獨立性特點,也存在著明顯相互作用。一方面其他四要素可以作為數據的來源,另一方面數據又可以反作用回其它四要素。同時,這種作用可以是漸變的,也可以是突變。 數據作為生產要素具有廣義性的特點,因此對社會的服務與治理,也可以認為是一個生產過程。 1.2.1 數據的類別 數據作為生產要素,可分為若干多的類別,首先從國民經濟行業劃分。 第一產業(比如農業):包括氣象、水利、土地、土壤、種子、肥料、勞動力狀況、農業機械、相關能源、產業政策、相關地區歷史性數據、植保、糧食價格、國際形勢及糧食價格、醫療衛生等,這些數據可能直接作用于統計決策,對從事農業生產的各類主體會有比較大的影響。相應的安全需求,仍然可以考慮將原始數據作為資產進行保護,而對于統計、分析的結果數據仍然可以作為資產進行保護。特別應該關注的是原始數據的準確性。 第二產業(比如制造業):分為離散制造業和流程制造業,這兩大類企業在將數據作為生產要素時,數據的應用過程,數據對產品的影響,以及生產出的新的數據產品會各有不同,相應的應該根據具體的生產情形進行進一步的安全需求分析。不過工業類企業的數據的復雜度,并不是特別的高,往往是與產品的技術、銷售、企業管理等相關的數據。一般的不會包含企業之外的涉及個人隱私數據。 第三產業(比如服務行業):包括政務、公共服務業、專門從事某一類服務的產業。之所以把政務也納入到服務性產業當中,是因為政府就是為人民服務的,當然還存在著對社會的管理和治理,但是對社會的管理和治理,從對大多數人的利益上來說,也是服務;具有公共服務性質的事業機構:如醫療、教育等;再有一類就是在政府指導下的公共服務類行業,如公共交通、水、電、氣、暖等;還有一大類是屬于純產業性質的企業:如軟件的定制開發、網絡運營商、電商、物流、商品零售業等。各種類型的服務,大到對其他企業和政府部門的服務,小到對個人的服務。這一類的數據是最為復雜的,既包含了大量的個人數據,也包含企業和政府自身的數據、合作關系的其它機構的數據等。這個行業的數據的作為生產要素的情形也會最為復雜,其安全需求的分析應該是不容易的。 當然,還有其他很多不同類別的分類方法,去分析數據的類別,進一步研究數據分類角度,對深入理解數據要素是很有意義的。特別是,我們不僅要考慮數據的當前的資產價值,還要考慮數據增值(未來價值)。而對數據增值的分析和評估,也是我們對數據的安全保護所要考慮到的。 1.2.2 數據的生產場景分析 數據作為生產要素形成產品可以分為兩大類,一類是將數據作為物質資料和物質條件生產的實體類產品;而另一類則是再生的數據類產品;所以組合后可能會有四種基本情況: 一是輸入數據,數據不改。數據直接服務于生產,包括對傳統產業的改進,或者是直接作用某一種傳統的產品。而這種產品的產出,并不會對數據產生任何的改變。在這樣的情況下,數據仍然是資產的屬性,不過是對數據的直接應用罷了。 二是輸入數據,數據改變。數據應用到生產,作用于某種產品,同時根據生產過程中的反饋,導致數據也要發生修改。從這一點來說,數據仍然可以考慮其資產的屬性,等于是修改數據的權限,賦予了生產過程。生產過程是主體,可以利用智能的手段,或者人工的手段對數據進行修改。 三是輸入老數據,生成新數據。要通過對原有數據綜合、分析、挖掘等,生產出新的數據(包括預測分析、語義引擎、聚類、分類、統計、可視化、描述性分析、診斷性分析、指令性分析等的結果),而這些新的數據帶來的價值的增殖。 在這種情況下,對原有數據就不能簡單只看到數據的資產屬性了,原有的數據,既有其資產的屬性,也有作為生產原料的屬性,同時還有勞動對象的屬性,其保護思路是要改變的。而新生產出來的數據,則仍然具有資產的屬性。 四是數據共享與協同。數據共享不產生新的數據產品,也不會生產出其他的產品,但是可以避免重復性的工作,提高了效率,降低的費用。社會成本的降低也應該認為是增值價值的,減少投入就是收益。 如病人在一個醫院的檢查結果,共享到其他的醫院,對病人來說是降低了費用,對于醫院來說,提高的相應的檢查效率。對于一個人的從生到死,相關的政府部門都要掌握相關的數據,如公安的人口管理、社會保障部門的服務、民政部門的服務、其他相關的部門的服務等。 在數據共享中,有些是必然相關的,還有些是屬性隨機相關的。有些數據屬于基礎數據,而另一些可能是具有情報學意義的數據,特別是一些商業性的企業,對各類數據的情報分析對于相應的銷售行為是有非常重要的意義的。 對數據保護的思考 一個完善的保護體系方案,必須建立在對安全需求充分理解的基礎之上。安全需求,則需要我們對可能的安全事件及影響進行充分的識別。無論是從風險評估體系,還是等級保護體系都面臨了相應的挑戰。 從風險分析的觀點出發,與風險相關的三個基本因素是:資產的價值、威脅和脆弱性。 2.1.1 數據資產價值分析 對于作為生產要素的數據,不僅要考慮作為資產的當前價值,還要考慮其增殖價值,如何來衡量,是一個需要解決的問題。風險評估中,對資產價值的賦值是依據數據當前的安全屬性,根據其保密性、完整性的安全要求,來決定給其進行相應的賦值。在等級保護中,GB/T22240[參考資料1]也明確提出依據業務信息(指的就是數據)的機密性和完整性進行賦值,以決定數據的安全等級,進而確定所承載系統的安全等級。并且無論是風險評估,還是等級保護我們都是對一個一個的單個數據客體進行這樣分析,從中取最高值。 當數據作為生產要素后,我們對數據的賦值,即要考慮當前數據安全賦值,還要考慮這些數據的增殖效應,而這個增殖效應是未來的。并且這個增殖效應是有不確定性的,由于運用這些作為“資料和條件”的勞動力(或勞動力團隊)的知識水平、分析判斷能力、使用的加工工具等因素的不同,增殖的結果往往會不同,其價值當然也不相同。 并且這個價值的評估,不應該簡單僅僅依賴于數據的保密性、完整性,還要考慮這個增殖的結果本身的其他價值,比如對國計民生的意義,對國防的意義等。如何來衡量這個未來的價值,雖然需要結合到具體的數據集群,勞動力集群等進行分析評估,但是最終應該給出一個相應指導方法來才行。 在以將數據作為資產來保護時,我們是對單個數據進行這樣的賦值的,而對于作為生產要素的數據往往是一個數據集群,單個數據的價值并沒有那么大。 數據的增殖價值,還體現在共享這些數據勞動力(或者是勞動力團隊)。有一種說法,數據越共享,產生的價值越大。我們先不討論這一命題,需要分析的是,數據共享出去以后,共享團隊所產生的增殖價值,對當前團隊的意義是什么,對當前團隊的利益是增加,還是受到侵害。這就不可能不涉及到共享范圍和對共享對象的評估問題了。 2.1.2 數據威脅分析 作為風險的第二個因素,是對威脅的分析,威脅源與應用的場景是密不可分的。對于作為資產進行的保護,我們可以用隔離的辦法,將相當一部分威脅源隔離出去。而對于作為生產要素的數據來說,這種隔離是不容易實現的。并且由于共享的團隊的加入,會導致威脅源的攻擊入口增加。 2.1.3 數據脆弱性分析 作為風險的第三個要素,是自身的脆弱性問題。對于傳統的結構化數據保護,由于數據的量小,一般一臺獨立的服務器,及這臺服務器的上操作系統、數據庫和應用程序所構成的計算環境,可以提供對這個數據的基本保護(授權機制),但是對于作為生產要素的數據,會有大量的非結構化數據,而這些數據首先是“量”大,某些應用數據已經達到TB級別,未來可能會達到PB級甚至更高,此時,一臺服務器及相關的計算環境是無法對這個數據進行基本保護的。同時,生產的過程,數據處于流動狀態,動態化,多用戶都構成了相應的脆弱性。 我們對數據作為生產要素存在的風險,應該說認識還是初步的。更多更細的問題,還沒有認識到。 利用生產,是可能生產安全風險的,主要是利用已知條件,推導出未知因素。主要是兩大方面,一是個人隱私的泄露問題,另一類是敏感信息的泄露。 利用已知推導未知是大數據的普遍的分析方法,這也是一個生產過程 利用導航定位數據為一個人的活動進行畫像,并不是一件困難的事情;通過手機聯系人的關聯,很容易分析一個人的朋友圈等。如果這些僅僅是為了商業利益,并且有適度的管控,問題還不大。但是,如果被惡意利用,就可能導致重大的安全問題。有人說,“把大數據利用得最好的是詐騙犯”是有一定的道理的。 同樣利用已知的公開數據,是有可能推導出一個機構的未知數據的,如果是這個機構的敏感數據,那么對這個機構來說威脅就大了。 安全解決方案的思考 【參考資料2】中,提出了負信任的問題,這是一個針對近期被炒的“零信任”概念所提出的,筆者并不認為“零信任”是新理念,而認為是在新包裝下的正確安全理念的回歸。可這個回歸,仍然還是將數據作為資產保護的基礎。 負信任的提出者認為:零信任體系是我信任我賦權的主體對象,但我無法信任當前登錄的這個用戶就是我相信的那個主體,因此我需要結合很多維度的信息來識別對象,比如結合登錄設備指紋,用戶的登錄方式,同時根據登錄場景和工作需求給與用戶最小化的授權,并在以后各自變化中持續驗證這個主體對象。負信任是對零信任的進一步深化。 而“負信任”是因為在生產過程中,從效率和成本角度,我們很難將生產交給完全可信的主體對象去完成,很多時候我們必須依賴不那么可信的人來完成我們生產的過程,也就是我必須給予不可信任的對象權限去完成生產,我確定了你是你,但我還是無法相信你,我又不得不用你,因此要以一種“監工”的身份,對主體對象的行為遵從性進行監督,同時還要觀察數據對象的各自狀態變化來確認安全狀態。 數據作為生產資料的情形下,負信任的問題是我們必須面對的。在零信任條件下,我們還可以建立起一個主體對應一個客體的細粒度的依據數據屬性授權訪問控制機制,而在生產的情形下,這種細粒度的訪問是做不到的。 如在數據的挖掘過程中,一個主體面向的是一個數據集群,而不是一個單一的數據客體。這個數據集群,雖然各個客體都有自己強調的安全屬性,但是為了挖掘的實現,我們不能依賴于這些數據的屬性,而必須將這些數據一塊交給一個挖掘主體。而這個主體,正常情況下所關注的,應該是這個數據集群中的某些具有特征信息的量,而不是每個數據客體中的全部。 同樣,對于一個數據集群,所面對的也不是完成某一任務的單獨的一個主體,單一任務就可能面向多個主體,同時還可能面向多個任務。 在這樣的條件下,提出“負信任”的概念是有合理性的。 參考資料2中,還給出了一個七步的RPCMART安全模型,參考資料3中了提到了生產安全和生態安全問題。本文暫不進一步展開解讀這些內容,而是要提出我們對安全解決方案的一些思考,當然這只能還是停留在思考的層面上,還不是一個完整的解決方案體系。 3.2.1 數據的分區管理 在現實社會中,一個生產型的企業,會將原料、半成品、加工車間和成品分區分域的進行管理,相應的庫房也是材料庫,半成品庫,成品庫等,這樣就非常方便的進行管理了。并且材料庫還可以再細分一般性的原材料庫和重要的原材料庫,加工原料,是要有相應的“領料”手續的,而在生產過程中,還要有過程上的管理,包括質量的管理和材料的管理,甚至有些“廢料”都是要進行管理的。 網絡空間的安全的規則和方法,可以認為是現實社會安全規則與方法在網絡空間中的映射,相應的對于“數據作為生產要素”我們也完全可以參照現實社會中的一些規則和方法進行分區管理。 對于數據的其它區域,仍然可以按照數據是資產這一思想進行保險柜式的保護,相應的國家的等級保護制度及相關的各類安全標準,是能夠解決。我們討論一下生產區安全方案的幾個重點問題: 1、對主客體的評估。對于客體的評估,一是要考慮到當前的價值,二是要考慮增殖價值,而增殖價值,不能簡單的依據數據的安全屬性進行分析,還要考慮這個數據集群整體蘊含的價值,還要考慮這個蘊含的價值,會對國家安全、經濟建設、公眾利益、社會秩序、公民與法人的利益產生的影響。 對主體的評估,主要是分析這些主體將當前的數據集群作為生產資料時的目的,及這些主體團隊的背景等進行分析,去年出臺的關于DSMM的國家推薦標準《信息安全技術數據安全能力成熟度模型》(GB/T37988-2019)可以作參考。 2、對生產過程的監控,我們將在3.2.2中進一步說明。 3、隱私計算場景。同態加密、多方計算等方式的引用,可信第三方的引入,使得數據可用而不可見。數據挖掘的訪問控制模型,這是一個還沒有公開發表的模型,是TBAC的改造模型,目的也是數據的可用而不可見。 3.2.2 生產過程的監控 在將數據作為資產進行保護的情形下,計算環境中一個非常重要的安全模塊是訪問監控器[參考資料4],這是在操作系統安全子系統的核心,許多應用程序,也會參考這個模型進行設計具體應用的訪問控制問題。如圖2a,但是這個訪問監控器,只能做到一個主體訪問一個客體,而對于將數據作為生產要素的生產過程,這個訪問監控器將無法完成相應的監控和授權機制。為此筆者提出了圖2b的思路。 首先訪問控制規則,在圖2b中,是不可能規劃成細粒度的,經過對主體評估后,應該允許這個主體(可以是用戶也可以是用戶組),對數據池(數據集群中的子集或者是全部)具有訪問的權力,當然,數據池可以是數據集群的全部,也可以是一個子集。導入到生產用的數據池中的數據,應該是經過各種治理過的數據。 操作主體,也可能是多個主體同時進行的。 增加一個基于行為監控規則庫,這個規則庫,是應該根據數據集群中的數據進行評估后,提出的一個最低的限度。當違背規則的行為發生時,規則庫是可以進行干預的。 應該說明的是,審計并不能代替基于行為的規則進行對操作的控制,審計是對操作的記錄,而不是控制。 還要利用區塊鏈技術對數據的去向進行跟蹤,包括計算結果數據,也包括運算主體使用過的數據。 結語 人類正在加速進入新的數據時代,自古有之的數據正在成為社會核心生產要素,所以需要體系化的構建數據新要素,包括理論和實踐。 本文分別從數據要素、數據安全、整體安全等方面提出一些思考,探索將數據作為生產要素情形下的安全體系設計。我們的目的是引起產業對數據作為生產要素情形下的安全體系設計的關注,逐步形成相對完善的數據生產要素安全體系。 參考資料1:《信息安全等級保護定級指南》(GB/T22220--2006) 參考資料2:方興《數據流動時代大數據風險如何管控》 (https://mp.weixin.qq.com/s/GPSUEvT7lrP1wIJld-ySrg) 參考資料3:方興:《從生產安全體系視角看數據安全》 (https://mp.weixin.qq.com/s/OS4iCYjqG7fW2ti9NN9f2w) 參考資料4:《操作系統安全2.5.1》(卿斯漢等著清華大學出版社)
網上經營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.ayzwhls.com all right reserved 技術支持:杭州高達軟件系統股份有限公司
服務熱線:010-59231580