編者按:時下,大數據產業(yè)的發(fā)展,已經滲透到傳統(tǒng)行業(yè)的方方面面。比如交通行業(yè)、汽車行業(yè)、能源行業(yè),等等。進入數字時代,我們主要做什么?我們該怎么認識大數據?該怎么運營數據?數據怎樣才能變成有價值資產?大數據的未來會是什么樣子?
圖注:工信部中國信息通信研究院大數據與區(qū)塊鏈業(yè)務主管、通信標準協(xié)會大數據技術標準推進委員會工作組長馬鵬瑋:大數據產業(yè)發(fā)展的問題和風向
在剛閉幕的2019首屆全球能源新基礎設施峰會上,工信部中國信息通信研究院大數據與區(qū)塊鏈部業(yè)務主管、信標準協(xié)會大數據技術標準推進委員會工作組長馬鵬瑋作為特邀嘉賓出席,并發(fā)表題為《大數據產業(yè)發(fā)展的問題和風向》的主旨演講,就大數據整個的產業(yè)現狀和問題進行深入淺出的分析,并就大數據相關的謎題,帶來了個人的所思所想。
據悉,本次峰會由日照市政府主辦,日照市發(fā)改委、日照市工信局、日照市商務局、日照市東港區(qū)人民政府、日照中央活力區(qū)辦公室、能鏈集團(車主邦/團油/快電)、山東數字能源交易中心、日照市財金投資集團承辦,石油觀察、石油觀察智庫協(xié)辦。
馬鵬瑋分享主要觀點如下:
1. 究竟該怎么認識大數據?可從三種層次看待:第一個層次是一種戰(zhàn)略資源;第二個層次是一套數據處理工具;第三個層次,是一種思維理念。
2. 數據一定是從現實世界產生的,也就是我們的實體世界,產生之后去了哪里?去了我們的虛擬世界,也就是數字網絡、數字設施里面,也就是現實到數字,從數字里面經過一串轉化、衍生、挖掘之后,最后要回饋到現實領域。
3. 大數據產業(yè)當下的三個問題:一個是技術,一個是管理,一個是安全。
4. 分布式,以前從單一硬件向大集群、大數據中心的轉換,這是未來基礎設施的必然的方向。
5. 未來,我們如果說真的要把數據轉化到資產,我們需要"兩條腿"走路,第一個是管理手段,第二是技術手段,也就是我們管理要建立相應的數據管理模式才可以數據到資產化進行平穩(wěn)的過渡。
6. 為了實現隱私保護,我們要做"兩條腿",也就是管理和技術。
以下為馬鵬瑋演講實錄:(略有刪改)
尊敬的各位領導、各位專家,大家上午好!
很榮幸今天能來到咱們非常隆重的盛會,首先我簡單自我介紹一下,我是來自中國信息通信研究院云計算與大數據研究所。我個人研究大數據領域大概5-6年的時間,信通院作為第三方的相當于研究機構、研究組織。我們做行業(yè)的動態(tài)研究,做行業(yè)的標準制訂,做企業(yè)的產品測試,做整個政策支撐,在5-6年工作時間里面,我個人覺得有一些不同的思考角度來看待這個行業(yè)、領域、技術的發(fā)展,所以我今天想給大家分享一些我工作中的一些思考,來幫助大家更好的認識大數據整個當前的產業(yè)現狀和問題。
首先,我提出第一個問題,怎么來認識大數據?這其實是值得大家非常長時間的討論,因為大數據從2017年被提到國家戰(zhàn)略為止到現在有兩年的時間,從技術的發(fā)展路線來看已經經過很長周期的迭代演進,所以我認為可以從三種層次看待,大數據究竟是什么東西。
我們看第一個層次是一種戰(zhàn)略資源。數字時代,我們主要做什么?互聯(lián)網、移動支付、電商等等,這些主要輸入是什么?數據,我們認識到第一個層次,這是一種戰(zhàn)略資源。認識到這個層次之后我們會做很多的事情。
第二個層次是一套數據處理工具。把數據留到整個存儲設備以后就可以用它了嗎?就可以真正產生價值了嗎?沒有,還浪費了存儲資源,我們需要一套數據處理資源,我們一定要有一套數據處理的工具,而且是瞄準大數據的,如果沒有專門的數據處理工具,未來的應用根本不可能長出來,我們針對它研發(fā),比如說數據計算的工具、數據存儲工具、數據應用工具、數據管理工具、數據服務工具、數據運營工具等等。
我們再看第三個層次,是一種思維理念。我們想數據從哪來?數據一定是從現實世界產生的,也就是我們的實體世界,產生之后去了哪里?去了我們的虛擬世界,也就是數字網絡、數字設施里面,也就是現實到數字,從數字里面經過一串轉化、衍生、挖掘之后,最后要回饋到現實領域,也就是先進去再出來的整個工作思路,所以最終目的一定是指導未來現實世界的發(fā)展,所以這是整個閉環(huán),也就是用數據指導現實世界理論的一個思想方法論。這也是我們最近常說的一種"數字孿生、數字城市"的概念,這就是如何認識大數據的三個層次。
2019年大數據產業(yè)地圖,其實可以明顯的看出來針對剛剛三個層次有很多的針對性企業(yè)在做相關的事情,比如我們總結上游數據、中游產品、下游服務。上游數據是做數據的收集、流通,比如幫助你采集數據,幫助你把數據從一個單位流轉到另外一個單位,這是上游數據干的事情。
中層產品做什么?專門做數據處理、數據存儲、數據運營的一套工具以及服務,比如阿里、華為提供了很多的大數據平臺給到各地的地方政府、國企單位,告訴他們用數據產生之后就可以把數據進行轉化、抽取、存儲。
下游服務,針對某個具體領域把數據產生真正的價值,也就是第三個理念,比如金融的風控,有了數據、工具,加上行業(yè)屬性之后就可以判斷出怎么做,也就是形成三個層次,每個領域都有非常多的公司做相關的事情。
一個大數據產業(yè)鏈的思維,其實是講的如何思考大數據產業(yè)鏈,我們其實把它可以類比成石油產業(yè)鏈,究竟是干什么?我們建機構、建平臺、數據加工與應用,這是整個流程化的東西,比如我們組建隊伍,做石油的勘探,這樣其實看究竟哪里有石油才可以干這個事情,還有就是鉆井,接入數據,建設油庫和煉化廠,然后煉制成產品,最后定價營銷,這就是數據運營。
接下來三個點看一下大數據當下的問題:一個是技術,一個是管理,一個是安全。
首先講一下技術,其實大數據發(fā)展非常早,從2003年就開始已經有相關的公司做事情了,標志性事情就是谷歌發(fā)布了DFS論文,以前的大數據為什么發(fā)展不起來?是因為我們根本存不下,我們沒有相應的技術存下,連存下都做不到怎么發(fā)展?2003年發(fā)展谷歌發(fā)布了DFS論文,2004年谷歌發(fā)布了MapReduce論文,存下來以后沒有用,2004年開始終于有了一項技術,可以把它算出來,可以把里面的價值進行挖掘,我們沒有技術難點之后,后續(xù)的應用才會快速的發(fā)展,一直到2014年、2018年,以前的批處理、流處理慢慢成為最新的趨勢。
未來,大數據技術層面有很多關注的動向,比如開源。我們很多的大數據產品經過我們的觀察,國內的一些企業(yè)都是借鑒了國外的一些企業(yè)的思想,這不是不對,開源從上世紀末期開始互聯(lián)網領域非常時興的做法,做法是把產品的一部分開放出去,讓整個社會的智力不斷的填充,而不是依靠公司自己的人力、智囊把這個產品完善,而是依靠整個社會的智囊力量發(fā)展的非常快。未來,中國也一定要重視整個開源的發(fā)展,包括開源模式的創(chuàng)新。
分布式,以前從單一硬件向大集群、大數據中心的轉換,這是未來基礎設施的必然的方向。比如數據倉儲OLAP/OLTP的融合,現在出現新的融合技術,不需要建兩套系統(tǒng),購買兩次成本,現在因為實時的技術發(fā)展用一套系統(tǒng)解決兩個問題。同時,模塊化、運維自動化、容器化、專用硬件等,這是未來可能關注的技術動向,這是技術層面,我們要思考的問題。
第二個問題,管理層面,數據接入進來之后,要怎么去用?有一句話是過去三年我只知道數據是資產,我只知道資產,真正變成資產了嗎?為你產生價值了嗎?我們要看兩個關鍵特征,一個是為企業(yè)帶來經濟效益,無論是節(jié)省成本、增加額外收入也好都是增加經濟效益,第二是可計量成本收益,比如存了1T數據值多少錢?以后能帶來多少錢?這些其實我們沒有量化的標準,都沒有一個計算的模式,所以其實這兩個問題我們都沒有解決,未來,我們如果說真的要把數據轉化到資產,我們需要兩條腿走路,第一個是管理手段,第二是技術手段,也就是我們管理要建立相應的數據管理模式才可以數據到資產化進行平穩(wěn)的過渡。
第一是盤點數據;首先起碼要知道有什么數據,然后還有什么細分的數據類別,這是第一步,也就是自來水服務里面的水源和水質了解。
第二是質量提升;因為以前沒有重視這塊工作,所以很多的數據是不能用的,出現臟數據、假數據、壞數據,所以第二步是質量提升,從源頭開始,之后要進行污水處理。
第三是打通壁壘;以前我們說是數據孤島,各單位之間的數據是互相不流通的,怎么能讓他們交叉產生價值呢?也就是建立管道打通壁壘。
第四是提升數據的可得性;要給每一個終端用戶建設數據可用的模式,如果沒有這個模式,根本達不到可用的范圍。
第五是保障安全;自來水工程或者是下水道工程隨著時間的推移一定會出現很多的污垢和問題,所以要定期的檢查管道還有沒有好。
第六是數據運營。當所有的工作做完之后,我們可以做最后的事情,給數據進行定價,這塊數據值多少錢,用人民幣或者是其他的法幣模式衡量,有了這個定價之后才可以真正的變?yōu)橐环N資產可以進行交易和流通等模式。
第三點是合規(guī),也就是安全,數據安全最近越來越重要。近兩年很多的互聯(lián)網案件當中都有這樣的體現,國家安全、用戶隱私、便利性其實是三者不可兼容的關系。所以,為了實現隱私保護,我們要做"兩條腿",也就是管理和技術。歐盟出臺了一個GDPR的整套流程,告訴你什么可用什么不可用,國內有大量的機構做大量的研究。我們除了通過規(guī)章制度做這個事情之外,還可以通過技術,比如群簽名、環(huán)簽名、差分隱私、區(qū)塊鏈、同態(tài)加密等,比如比爾蓋茨和王健林互相比誰有錢,互相補知道有多少錢的情況下,通過這個技術可以比出來,我不知道數據長什么樣,但是可以因為數據可以為業(yè)務做服務,目前我們院進行相關的研究,也得到了一些成果,這是我們認為的兩條腿走路的方式。
大數據產品能力評測。從上圖可以看到,橫向是國內做這些產品的企業(yè)大概是什么規(guī)模,如有華為、阿里、騰訊、百度??v坐標看產品體系的豐富度。如知識圖譜、用戶行為分析、商務智能等,縱坐標越長,代表國內產品體系越繁榮,紅色點是代表這個企業(yè)在這個基礎方向上完成的測試,企業(yè)的紅點越多,代表這個企業(yè)的綜合產品能力越強,也就是產品體系越豐富。
我的演講就到這里,謝謝大家!
責任編輯: 中國能源網