大數據已經上升成為國家戰略,社會各界對大數據的期待上升到了前所未有的高度。如何務實推動大數據戰略落地,成為接下來的政策重點。本文重溫了大數據的內涵,分析了大數據的局限性,結合國內大數據發展面臨的瓶頸,提出了相關的策略建議。
1引言
2015年,我國《促進大數據發展行動綱要》出臺,十八屆五中全會進一步提出要在“十三五”期間實施國家大數據戰略,大數據一路上升成為國家戰略,社會各界對大數據的期待上升到了前所未有的高度。如何推動大數據戰略落地成為未來幾年的政策重點。本文重溫了大數據的內涵,分析了大數據的局限性,結合國內大數據發展面臨的瓶頸,提出了相關的策略建議。
2把握概念本質,深刻認識大數據的戰略價值
大數據是新資源、新技術和新理念的綜合體。從資源視角來看,大數據是新資源,體現了一種全新的資源觀。摩爾定律仍然有效,計算存儲和傳輸數據的能力在以指數速度增長,分布式計算、存儲和數據技術的革新不斷涌現,互聯網企業對“數據廢氣”(DataExhaust)的挖掘利用大獲成功,引發全社會開始重新審視“數據廢氣”的價值,開始把數據當作一種獨特的戰略資源對待。
從技術視角看,大數據代表了新一代數據管理技術。傳統的數據管理與分析技術以結構化數據為對象、在小數據集上進行分析、以集中式架構為主,成本高昂。與“貴族化”的數據分析技術相比,源于互聯網的,面向多源異構數據、在超大規模數據集上進行分析、以分布式架構為主的新一代數據管理技術與開源軟件潮流疊加,在大幅提高處理效率的同時(數據分析從T+1到T+0甚至實時),成百倍地降低了數據存儲和管理成本。底層技術的變革釋放了上層應用的創新活力。
從理念的視角看,大數據提供了一種全新的思維角度。大數據的應用,賦予了“實事求是”新的內涵,其一是“數據驅動”,即經營管理決策可以自下而上地由數據來驅動,甚至像量化股票交易、實時競價廣告等場景中那樣,可以由機器根據數據直接決策;其二是“數據閉環”,觀察互聯網行業大數據案例,它們往往能夠構造起包括數據采集、建模分析、效果評估到反饋修正各個環節在內的完整“數據閉環”,從而能夠不斷地自我升級,螺旋上升。
大數據本身既能形成新興產業,也能推動其他產業發展和社會進步,戰略重要性毋庸置疑。從狹義看,圍繞大數據采集、存儲、管理和挖掘,正在逐漸形成一個小的產業生態(狹義大數據產業)。2015年,全球的大數據產業規模約為200~300億美元。據中國信息通信研究院調查[1],2015年我國大數據市場規模達到115.9億元,增速達38%,預計2016-2018年還將維持40%左右的高速增長。
從廣義看,大數據具有通用技術的屬性,能夠提升運作效率,提高決策水平,從而形成由數據驅動經濟發展的大生態。據華沙經濟研究所測算,歐盟27國因大數據的引進,至2020年將獲得1.9%的額外GDP增長[2]。美國麥肯錫預計到2020年美國大數據應用帶來的增加值將占2020年GDP的2%~4%。中國信息通信研究院采用華沙經濟研究所相同的模型測算,2014年大數據對我國GDP的增量貢獻約為0.53%~1.25%,2020年的增量貢獻最高將達到1.9%。大數據的應用對社會治理水平的提升也能起到明顯的推動作用。
3避免盲目跟風,大數據熱潮還需冷思考
身處大數據熱潮中,既要充分認識大數據的潛力,積極把握技術進步帶來的機遇,也要認清大數據的局限性,警惕大數據萬能論。一些被廣泛傳播的經典案例現在被證明是子虛烏有的,比如,啤酒與尿布的故事實際上是Teradata公司的工程師ThomasBlischok在1992年杜撰的[3],從來沒發生過;而Netflix號稱用大數據分析幫助自制劇《紙牌屋》取得成功,而實際上是把大數據作為公關活動的噱頭[4]。筆者認為,至少有以下幾點值得思考:
第一,大數據尚難對人的行為做出精確預測。在大數據是否能準確預測人類行為的問題上,還存在重大分歧?!逗谔禊Z》指出人類的行為不可預測[5],而《爆發》一書則根據對以往歷史經驗的總結,指出人類行為93%可預測[6]。麻省理工學院教授羅伯特·萊格伯恩(RobertoRigobon)稱,雖然華爾街一直重視數據分析,但基于海量數據分析的對沖基金在全球都是失敗的[7]?!皩τ谌撕褪录?,如果放到越大的空間和時間范圍,則是越可以精確預測的。如果放到越小的空間和時間范圍,則是越不可以精確預測的。例如,我們幾乎可以在100%的程度上預測一個人在24小時的時間范圍內會吃飯;但若精確到某一分鐘,則幾乎不可能預測準確?!盵8]大數據無法預測人類行為,歸根結底還是因為人具有“自由意志”,人會根據預測結果(如下個月的股票價格、明天的交通擁堵情況)改變自身行為,從而使得預測失效。
第二,大數據相關關系不能替代因果關系。舍恩伯格在《大數據時代》[9]中說:“我們沒有必要非得知道現象背后的原因,而是要讓數據自己發聲”,“相關關系能夠幫助我們更好地了解這個世界”。追尋相關關系和因果關系,是人類思維的兩種重要方式,而用大數據進行預測往往依靠相關性,也就是說,很多情況下知道“是什么”即可,不必知道“為什么”。相關關系的運用在互聯網推薦、精準廣告等方面得到了實際應用。然而,在很多時候,如疾病診斷、工廠故障分析等場景下,需要根據確定的(或置信度非常高的)結論來決策,僅憑相關關系是遠遠不夠的。換言之,大數據中的相關關系應用,需要區分場景,有時候數據無法自己說話,需要追本溯源。
第三,大數據來源不均衡會讓數據“說謊”。有人說數據不會撒謊。實際上,如果忽視數據來源的不均衡性,數據分析結果就會“騙人”。中國互聯網絡信息中心2015年的統計數據顯示,我國網民城鄉分布嚴重不均,農村網民雖然迅猛增長,但仍不及城市新增網民數量的1/10。社交網絡用戶的性別分布也同樣有很嚴重的傾斜,騰訊公司2015年年初的報告顯示,微信用戶的男女比例為1.8:1,男性用戶約占了64.3%,而女性用戶則只有35.7%。如果利用網絡大數據進行民意調查,卻不把樣本分布的不均衡性考慮進去,就可能使得某些群體未得到充分代表,而某些群體因使用率高,其意見或特征被過分放大。這種不均勻的數據來源會導致分析結果存在偏見和盲區。
第四,大數據無法消滅信息不對稱現象。有人說,大數據有助于消滅信息不對稱。雖然從全社會看,大數據的全面采集和融合應用有望在局部緩和信息不對稱程度,但是在互聯網世界中,馬太效應很顯著,擁有大數據資源和掌握大數據分析能力的企業,往往會在大數據時代占據更加有利的地位、占有更多數據,從而更容易形成一批數據寡頭,產生新的不平等,造成新的信息不對稱。因此,大數據無法消滅信息不對稱,反而更有可能助推數據寡頭的出現。如果這種數據壟斷地位被企業濫用,將會威脅個人、企業甚至國家利益。因此,在大數據時代,如何進一步彌合數據鴻溝、防止數據“霸權”的濫用,將會成為一個重要的新課題。熱潮之下,對大數據的反思,還需要不斷深入,才能讓我們保持清醒的頭腦。
4推動開放共享,倒逼信息化建設升級
以上從理論層面做了探討。而從大數據產業實際發展來看,我國還存在數據開放、技術創新、制度建設、區域協同等多方面的瓶頸需要突破。
開放政府數據,并帶頭用好大數據技術,是政府部門支持大數據發展最直接的舉措。經過多年發展,我國政府信息化建設取得了舉世矚目的成就。自1993年啟動金橋工程、金關工程和金卡工程以來,“兩網一站四庫十二金”相繼建成,政務信息化水平不斷提升;面向公眾服務的政府網站群也已經具有較大規模,截至2015年上半年,全國各級政府網站總數達到8.6萬個,其中地方8.3萬個,國務院部門3000多個。政務履職和公眾服務過程中積累了豐富的數據資源,是十分寶貴的資源。
數據開放共享一直是政務信息化建設的理想目標。以前,系統建設煙囪式的建設模式,加上數據權責利的管理制度沒有建立起來,導致橫向來看在政府內部的數據孤島普遍存在,縱向來看數據對外開放更是缺乏技術與制度基礎?,F在,在全社會推進大數據的應用,數據的多源融合是先決條件,政府數據的共享開放已經成為不得不做的事情。恰好在最近幾年,云計算不斷成熟,為統一的政務信息平臺建設提供了新工具,為數據共享融合提供了技術便利。
李克強總理強調:“首先要把政府大數據的建設事情辦好,給社會一個好的示范?!庇谜髷祿膽玫贡普招畔⒒?,推動政務信息化建設從煙囪式、封閉式、集中式的模式,轉向平臺式、開放式、分布式的模式。國務院《促進大數據發展行動綱要》中,把這項工作放在首位,提出了統籌基礎設施、整合應用平臺、推動數據共享、推進數據開放等基礎性工作,還提出要基于融合的數據,加強宏觀調控科學化、政府治理精準化、商事服務便捷化等應用創新。從自身做起,體現了政府推動大數據的決心。
然而從各地推進情況看,政府數據的開放共享在實際操作中的阻力不小,動力不足。改變目前政府部門不愿開放、不敢開放、不能開放的現狀,長遠之計,是要自上而下,由中央建立一套完善的數據開放共享機制,明確開放共享的數據目錄、技術標準,以及平臺建設思路,部委和地方去落實。短期來看,還需要結合漸進路線,逐步推進。例如在政府數據開放方面,可先從已經開放的數據如何便利化應用入手。
我國很多政府網站都已經開放了比較豐富的數據資源。筆者曾經對工業和信息化部miit.gov.cn域名內已開放的數據進行了研究和梳理(未包含國防科工局、國家煙草專賣局、國家航天局和國家原子能機構,以及各地方主管部門和25個下屬機構),發現已經開放的數據包含資質審核、行業統計、項目審批、產品信息、標準規范和科技成果等6大類數據集,共計約60萬條數據,已經具備相當規模。
但政府已開放數據大多存在以下三方面問題:一是不好找,現有數據較為分散,檢索缺乏統一入口;二是數據不好看,大多以表格或文字綜述報告形式呈現,直觀性不強,公眾理解起來比較困難;三是數據不好用,數據格式標準不統一,絕大部分不支持機器可讀。這些都增加了政府數據社會化應用的技術門檻和成本。解決上述問題,可以從技術上入手,統一標準,建立平臺。首先讓政府網站上本已開放的數據更好找、更好看、更好用,成熟后逐步擴大開放范圍,這將是務實可行的第一步。
5強調供需對接,拉動技術產業跨越發展
大數據資源與技術,就好比工業時代的燃料與引擎,不僅自成產業,還能夠驅動其他產業更好發展。當前,開源模式迅猛發展,技術“民主化”潮流勢不可擋,數據技術的軌道正在從集中式向分布式切換,傳統產業的格局有望重塑。在這樣的大變軌時期,一方面我國領先的互聯網企業——IT制造企業與國際先進水平的差距不斷縮小,甚至在一些方向上達到了前所未有的接近程度。另一方面,我國正在實施《中國制造2025》戰略,農業和服務業正在加速轉型,有數不清的問題等待著用大數據去解決,對大數據技術產品的需求空間也十分巨大。
技術產業加速變軌、國內產業快速崛起和龐大的市場內生需求三者疊加,使得我國具備在大數據領域實現跨越發展的條件。在之前的幾次信息化浪潮中,國內產業沒能實現彎道超車,天時、地利、人和沒有同時具備。然而在當前的時間點上,我們同時具備了產業支撐能力和巨大應用空間的優勢,如果能夠將兩方面優勢結合起來,形成良性互動格局,就能夠實現跨越發展?!洞龠M大數據發展行動綱要》提出“推動產業創新發展,培育新興業態,助力經濟轉型”的任務,體現了謀劃跨越發展的前瞻性。
我國大數據產業發展的一個重要目標是打造自主可控的產業體系。當前,從大數據技術與產品的供給側看,我國雖然在局部技術上實現了單點突破,但大數據領域系統性、平臺級技術創新仍不多見,供應商面臨著緊跟技術趨勢、精準對接用戶需求的壓力。從大數據技術與產品的需求側看,對金融、電信、工業、醫療、政府等行業用戶來說,正面臨著如何規劃技術路線、如何選擇商用產品、如何構建和運維大數據平臺等問題。
為此,下一步著力點應該按照中央提出的供給側改革思路,發揮產業聯盟等平臺作用,深入挖掘業務需求,促進供需精準對接,把國內優勢技術力量凝聚起來形成合力,突破關鍵技術,推出滿足關鍵行業重大需求的大數據技術產品體系,并以產業實踐為基礎,逐步形成接地氣的大數據標準體系和知識產權體系,逐漸向技術和產業的前沿和高端躍升。
6完善法律制度,切實保障數據安全
當數據這種新的資源越來越受重視時,與數據相關的權利義務界定也就顯得越來越重要。小到個人,大到企業和國家,都是大數據的利益相關方。
對個人來說,大數據的應用對隱私保護提出了巨大挑戰,技術面前個人越來越渺小和脆弱。要嚴格保護大數據應用中的個人信息,就需要探索形成大數據環境下數據收集、開放、交換、應用等環節的規則,明確大數據應用相關各方的個人信息保護義務和責任。
對企業來說,數據資產的所有權、使用權還是個模糊地帶,急需建立數據產權保護制度,明確各類市場主體所積累的信息資產所有權歸屬,建立規范化管理和使用機制,保護信息所有者、信息主體及公眾的合法利益。
對國家來說,數據空間成為主權的新領域。需要研究跨境數據流動分級、分類管理制度,涉及國家秘密、國家安全以及經濟安全的數據進行管理,確保大數據時代的國家安全。
李克強總理指出,“政府既要‘扶持’,為大數據產業創造一個健康發展的環境,又要‘引導’、‘規范’,保障信息安全”,并提出“要完善產業標準體系,依法依規打擊數據濫用、侵犯隱私等行為,讓各類市場主體公平分享大數據帶來的技術、制度和創新活力”?!洞龠M大數據發展行動綱要》明確了“強化安全保障,提高管理水平,促進健康發展”的任務,以及“加快法規制度建設”的措施,從法律法規、管理制度和技術手段等多層次保障大數據安全。
完善大數據發展的制度環境是一個長期過程。長遠來看,要提升大數據治理水平,深入研究數據權益、數據管理、數據交易、數據安全等關鍵問題,推動建立數據流通和使用的行業自律機制,逐步完善出臺大數據相關法律體系,推進法治化進程。建立大規模個人信息泄露報告制度,完善網絡數據和用戶信息的安全防護措施及管理機制,健全網絡數據保護制度。短期來看,在法律法規尚未出臺之前,要充分發揮行業組織作用,構建大數據交易流通與合規應用的行業自律機制,推動行業自律,建立基于實踐的大數據安全管控技術標準體系,開展大數據平臺產品及服務商的可靠性及安全性評測工作、應用安全評測、監測預警和風險評估。
7突出地方特色,形成差異化的區域產業布局
國務院《促進大數據發展行動綱要》中明確提出,要“加強中央與地方協調,引導地方各級政府結合自身條件合理定位、科學謀劃,將大數據發展納入本地區經濟社會和城鎮化發展規劃,制定出臺促進大數據產業發展的政策措施,突出區域特色和分工,抓好措施落實,實現科學有序發展”。2016年4月13日召開的促進大數據發展部際聯席會議第一次會議,進一步明確了地方大數據發展的重點方向,加快綜合試驗區建設,鼓勵地方開展制度創新探索,推動數據創新應用,破解大數據發展難題。
國務院《促進大數據發展行動綱要》出臺后,各地搶抓發展機遇,謀劃大數據發展藍圖,不少地方已經在頂層設計、體制機制創新、業態探索和基礎設施建設等方面取得了明顯進展。據中國信息通信研究院統計,目前已經有23個省市出臺了74個大數據相關的指導意見或規劃,廣東、貴州、遼寧沈陽、四川成都市地方政府還成立了大數據相關的專門機構;北京、貴州、陜西、湖北、河北、上海、浙江等地成立大數據交易所或交易中心;內蒙古、貴州等資源稟賦較好地區的超大規模綠色數據中心建設相繼建成,形成了良好的發展局面。
需要特別關注的是,大部分省市的大數據規劃都有大手筆的數據中心建設計劃。需要注意的是,大數據絕不等于“大數據中心”,大數據發展并不一定需要大面積的產業園區。因此,地方發展大數據的重點,不是建產業園、建數據中心,而是要充分依托已有設施資源,把現有的資源利用好,要堅決杜絕盲目新建數據中心,避免造成資源空間的浪費。地方需要差異化發展,應該把大數據的發展重心放在因地制宜地促進應用創新上,放在打造完善的發展環境上,讓市場在大數據發展要素配置上起決定作用。