隨著互聯網技術、云計算、物聯網等信息技術的快速發(fā)展, 電子政務也向著大數據方向發(fā)展開來, 整合、互聯、共享、重構、高效將成為政務大數據發(fā)展的趨勢。
但政務大數據的開放共享在提升辦事效率、輔助政府決策的同時, 也面臨著數據安全問題, 考驗著數據治理能力。復旦大學國際關系與公共事務學院副教授、數字與移動治理實驗室主任鄭磊告訴本刊記者, 政務數據開放后的關鍵問題是對這些數據的利用和再利用, 目前政府的數據治理能力還有待提高。
數據開放不等于簡單的信息公開
《中國電子政務發(fā)展報告 (2017) 》 (以下簡稱《報告》) 指出, 政務大數據的來源不同于其他行業(yè)和領域的大數據, 有其獨特的含義和價值。數據來源多樣復雜, 政務大數據來源大致可包含以下四類:第一是業(yè)務數據, 是政府在權力行使過程中采集和產生的數據, 特征是價值密度大、以架構化數據為主;第二是社會化數據, 是銀行、水電、交通等企業(yè)、公民在社會活動中產生的數據, 特征是相對集中、體量大、價值密度中等;第三是互聯網數據, 是在互聯網上活動時產生的數據, 部分反映社會活動狀況, 特征是數據分散、體量大、結構多樣;第四是物聯網數據, 是通過互聯網設備采集獲得的氣象、環(huán)境、影像等數據, 特征是體量大、高增長、噪聲大。
大容量、多類型的政務數據面臨著復雜的開放共享問題。
香港大學法律學院博士后研究員陳詠熙指出, 政府數據開放共享不同于簡單的政府信息公開。從價值取向上看, 前者是用數據驅動來改善經濟、政務、社會服務, 后者是通過保障公民知情權來促進民主監(jiān)督;從數據量上看, 前者是大規(guī)模的數據化, 后者主要是紙面信息和少量電子化;從數據處理流程上看, 前者是多向且動態(tài)流轉的, 后者是單向且相對靜態(tài);從數據處理能力上看, 前者是基于大數據運算能力的普及化, 后者主要取決于個人的處理能力。
鄭磊也認為, 開放數據跟傳統(tǒng)的信息公開有所不同。世界銀行對開放數據的定義是, 數據可以被任何人出于任何目的自由地利用和再利用。完整的、可機讀、一手的、非歧視、及時的、非專屬性、可獲取、免授權是開放數據具有的主要特征?!八貏e強調的一點是數據開放之后的利用和再利用, 而不僅僅是開放之后被別人知情。而且開放的是海量的、電子化的數據, 而不僅是開放一些文件那么簡單?!编嵗谡f。
《報告》指出, 政務大數據在開放、共享和應用中主要面臨四方面挑戰(zhàn), 需要建設者重點關注。
一是平臺服務能力的挑戰(zhàn)。通過構建不同類型數據融合的大數據平臺, 支撐數據統(tǒng)一存儲、統(tǒng)一管理、構建多樣化應用, 但隨之而來需要面對幾種典型問題, 首先利用同一個大數據平臺支撐不同部門、不同的應用系統(tǒng)構建各自的大數據應用, 如何能避免應用對平臺資源調用的沖突;在構建了融合的大數據平臺后, 如何在共享數據資產的同時, 保證數據權屬的完整性, 有效避免數據資產的泄露。
二是數據處理能力的挑戰(zhàn)。隨著政務大數據的增加, 各類新的數據類型層出不窮, 對數據處理能力提出越來越高的要求。一方面, 隨著政務相關數據來源范圍的擴大, 以及音視頻內容的增長, 每天都會有海量的增量數據生成, 對這些數據及時進行抽取、轉換、加載的批量處理, 將面臨巨大挑戰(zhàn)。另一方面, 對數據的實時處理能力要求越來越高, 政務服務即辦件比例的提升, 信用體系對外即時響應服務的擴展等, 都要求對各類數據及時進行有效性驗證。
三是, 數據安全的挑戰(zhàn)。大數據的安全與傳統(tǒng)信息安全相比變得更加復雜, 主要有三個方面:首先, 大量數據匯集, 其中包括大量政務服務數據、用戶信息、個人的隱私和各種行為的細節(jié)記錄, 這些數據的集中存儲增加了數據泄露風險;其次, 因為一些敏感數據的所有權和使用權并沒有被明確界定, 很多基于大數據的分析需要考慮到其中涉及的個體隱私問題;再次, 大數據對數據完整性、可用性和秘密性帶來挑戰(zhàn), 在防止數據丟失、被盜取、被濫用和被破壞上存在一定的技術難度。
四是數據融合共享的挑戰(zhàn)。數據的海量增長伴隨著有用信息的不足, 想用的、能用的數據無處可尋, 可用的、可信的數據極端匱乏, 政務領域的海量數據多處于“休眠”狀態(tài), 真正用于提升業(yè)務效率、改變業(yè)務流程、變革業(yè)務發(fā)展的應用并不多。有些職能部門對數據的共享開放消極被動, 有些部門基于風險的考慮不愿將業(yè)務數據拿出來與其他部門共享, 有些部門限于信息壁壘和標準缺失無法共享開放。
數據開放與隱私保護產生沖突
在政務大數據開放的過程中, 最受人們關注的就是隱私問題。陳詠熙指出, 海量的個人信息正在進入政府數據, 這些信息有可能被第三方再利用, 而非個人信息經大數據挖掘、剖析也轉化為個人信息, 這些問題使得政府數據開放可能與個人隱私保護產生沖突。
據陳詠熙介紹, 香港曾經出現過一款名為“起你底”的App, 就引發(fā)了有關數據開放和隱私保護的爭議。
“起你底”是香港數據庫公司GDI2012年推出的一款軟件, 軟件錄入逾200萬宗法庭審訊紀錄資料, 使用者只要下載軟件, 輸入所查之人的中文或英文姓名, 便可查閱這個軟件從司法機構、破產管理署、公司注冊處等不同渠道收集到的市民訴訟、破產及公司董事資料, 有的連身份證號碼、住址等都可查到。
公司表示, 有關訴訟的資料都是由公開渠道及合法途徑取得, 所有數據及記錄的內容均無篡改。但有市民認為, 此舉卻隨時侵犯個人私隱, 對被查閱人士造成不公平, 加上同名同姓的人甚多, 所得數據未必準確。香港個人資料私隱專員公署2012年接獲了12宗市民針對“起你底”的投訴及60宗查詢。
公署對此介入調查后認為, 軟件收集已公開于公共領域的零碎個人數據, 經整合后給人作審查用途及商業(yè)用途, 明顯偏離數據公開原意, 于是與2013年7月31日發(fā)出執(zhí)行通知, 要求停止程序繼續(xù)披露其持有的個人數據。陳詠熙指出, 公署認為公諸于眾的個人數據仍受《個人資料 (私隱) 條例》等香港現行的法律法規(guī)的保護, 因此“起你底”App嚴重侵犯個人私隱。首先, App違背了一系列數據保障原則, 比如個人數據的使用, 必須與數據最初收集的目的相同或直接相關, 除非事先取得數據主體的同意;數據準確無誤;數據主體有權查閱其數據并更正不準確者。其次, 影響了曾經犯事者自新的機會。第三, 違反了數據主體對數據私隱的合理期待。
但公署的決定也引起了一些反對意見。有資訊業(yè)界人士認為, 如果說對公共領域內的個人信息進行再利用得出新的結論, 屬于背離了信息使用的最初目的, 那么就是斬斷了大數據應用的關鍵一環(huán)。
這一案例中反映出的大數據開放應用與傳統(tǒng)信息保護制約的沖突值得人們深思。陳詠熙指出, 從全球來看, 協調公開與隱私問題主要有兩種模式, 一種是以美國為代表的偏向信息公開的模式, 一種是以歐盟為代表的偏向隱私保護的模式。但在大數據時代, 這兩種模式已經開始出現趨同。不少國家開始認識到政府數據開放對隱私的沖擊是全面而嚴峻的, 不再強調“公開優(yōu)先”或“隱私優(yōu)先”的靜態(tài)原則, 而是傾向于對個案具體問題具體分析, 細究利用信息的目的, 尤其是特定的再利用是否正當等。不過到底怎樣才是最佳的解決方案, 各國還都在探索之中。
政府數據治理能力還跟不上
在鄭磊看來, 政府在數據開放過程中, 除了在隱私保護這樣的問題上缺少法律法規(guī)和政策指引, 還存在不少挑戰(zhàn)。通過對一些地方政府數據開放和應用情況的調研, 他發(fā)現, 政府不僅是數據開放的意愿不強烈, 更重要的是數據治理的能力跟不上。
一方面, 目前很多政府部門不愿意開放數據, 主要是怕開放后出現安全問題被追責。鄭磊指出, 數據開放后確實可能面臨各方面安全風險。開放數據本身涉及國家機密、商業(yè)機密和個人隱私;被關聯分析后泄露國家安全、商業(yè)機密和個人隱私;被濫用損害公共利益或第三方利益;數據質量有問題被利用后也會造成損失。因此, 政府還是存在“多做多錯、少做少錯”這樣的想法, 并且認為數據是部門資源, 不愿意對外開放。
另一方面, 有些政府部門還不具備數據開放的能力。原因有缺乏體制機制支撐;主管部門不明確, 職能繁雜、職責交叉;組織與人員能力建設、經費保障、技術基礎設施跟不上等。
鄭磊強調, 最重要是數據治理能力跟不上。最突出的問題就是數據碎片化很嚴重, 散落在各個部門, 沒有整理起來。除此之外, 數據共用共享、數據權屬、數據采集、數據編目、數據標準、數據質量、數據安全等, 都是數據治理的重要內容。而目前還很少有政府部門能形成較為完善的數據治理體系, 這導致政務大數據并不能得到很好的利用。
由復旦大學和提升政府治理能力大數據應用技術國家工程實驗室聯合發(fā)布的《中國地方政府數據開放平臺報告 (2017) 》指出, 目前各地開放數據平臺上線的數據集在數量上已成規(guī)模, 多個地方的數據集總數已突破或接近1000, 但其中能真正符合完整的、原始的、可機讀的、非專屬的、以接口形式提供等開放數據標準的數據集仍然偏少。不符合標準要求的所謂“數據集”卻比比皆是, 或為加工歸總后的統(tǒng)計報表, 或為非結構化、不可機讀的文本內容, 或為拆分后或未整合的單行數據, 甚至還有數據集名稱下面不存在可獲取的數據集。這些“數據集”無法被利用, 更不可能產生價值, 將會使數據開放最終流于形式。
對此, 鄭磊對政府部門提出的建議是, 政策法規(guī)方面, 完善法律法規(guī)政策, 明確開放與保護的邊界, 制定開放數據標準, 規(guī)范開放數據利用和流通;管理組織方面, 明確主管部門、制定管理制度、分級分類差異化管理、事中前后全過程管理、開展內部和第三方風險評估、建立預警機制、制定應急預案、建立動態(tài)糾錯機制、開放社會評議舉報、明確責任追究與免責;數據與技術方面, 要注重提升整體數據治理水平、開放平數據安全防護體系、數據脫敏、防范數據間相互關聯產生的風險、開放數據的質量控制、對已開放數據的長期監(jiān)測。
上述報告也建議, 對主管部門加強有關開放數據基本知識的培訓, 厘清概念, 達成共識;然后基于開放數據的基本原則和標準, 從數據利用者的視角和需求出發(fā), 開放完整的、原始的、可機讀的、非專屬的、結構化的、高價值的數據集, 并配備實用詳實的元數據條目, 幫助用戶用好數據、用對數據。物盡其用, 數盡其利, 只有開放真正能被“用”起來的數據才能創(chuàng)造價值。
