您的當前位置:首頁 -> 研究報告

崔偉:三分鐘讀懂大數據

———— 發佈時間:2020-10-20   編輯:  閱讀次數:29 ————

“大數據”(Big Data)可以理解為三個層次:

1. “大”。必須是海量的數據,才算大。

2. “數據”。不只是存貯(譬如保存在電腦中的大量檔),而是包含了數據的清理(“數據清洗”)、分析和解讀。

3. 這是一整個系統,而不只是針對一堆數據,而是一個龐大的框架。就像一個餐廳,數據就像是原料,而關鍵在於廚師通過菜譜製作出的菜品,也就是通過分析這些數據所能給人們帶來的價值。

 

首先,多大才算是“大”數據?

 

下麵是常見的數據單位:

1 KB = 1024 B (KB - kilobyte) 

1 MB = 1024 KB (MB - megabyte) 

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte) 

1 PB = 1024 TB (PB - petabyte) 

1 EB = 1024 PB (EB - exabyte) 

 

1TB,現在的話只需要一塊硬碟就可以存夠,大約幾十倍4K電影。1PB的話,則需要大約2個機櫃的存儲設備。1EB,需要大約2000個機櫃的存儲設備。如果並排放這些機櫃,可以連綿1.2公里那麼長。如果擺放在機房裏,需要21個標準籃球場那麼大的機房,才能放得下。

 

EB還不是******的。目前全人類的數據量,已經達到了ZB級。

1 ZB = 1024 EB (ZB - zettabyte) 

 

2011年,全球被創建和複製的數據總量是1.8ZB。而到2020年,全球電子設備存儲的數據,將達到35ZB。如果建一個機房來存儲這些數據,那麼,這個機房的面積將比42個鳥巢體育場還大。

 

數據量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。

目前的大數據應用,還沒有達到ZB級,主要集中在PB/EB級別。

 

哪里來這麼多數據?一方面互聯網的發展,促進了用戶產生資訊(UGC)的快速增長,即大家每天拍攝、分享的照片、視頻。更重要的是,隨著物聯網的發展,各種各樣的感知層節點開始自動產生大量的數據,例如遍佈世界各個角落的感測器、攝像頭。

 

其次,什麼叫做數據清理、挖掘和機器學習?

 

我們可以從一個小孩子從出生開始的學習過程來類比。孩子會接觸到大量的人、事、物,它們具備各種形態、格式、類型,需要以不同的方式加以理解、消化,對於一個孩子來說,這些數據再大也不多。但是放大到幾十個、上百個孩子,這些數據就會相當龐大,數據處理、吸收的複雜性也會指數式增加,這就類似於“大數據”。

 

在接觖到這些資訊以後,孩子要從中理解世界這行的機制,這就是“數據挖掘”。譬如:孩子看到天氣冷了,葉子落了,得出了結論:“天氣冷的時候,樹葉會掉下來”。

 

這就是通過對數據的處理,挖掘出了一定的經驗知識。

 

這個裏面涉及到很多關鍵的點:怎麼樣確保天氣冷的資訊是準確的,這就需要“數據清理”,即要對原始數據進行嚴格的規整,避免嗓聲資訊。

 

最後,孩子學習到這些經驗知識以後,現在孩子需要自己面對一個新的世界。天氣冷的時候,樹葉會掉。那麼天氣暖和的時候,會怎麼樣?

 

孩子也許還沒有看過,但是根據對天冷時候的情況的分析,他/她推測,樹葉可能會長出來。

 

這就是從已有的經驗,推測出新的知

識,這就是“機器學習”的核心。“學習”的本質就是求解最逼近真相的經驗,理論基礎主要是統計學。

 

最後,大數據系統的價值是什麼? 

 

研究大數據的主要目的,就是為了挖掘大數據裏面的價值。大數據,究竟有什麼價值?

早在1980年,著名未來學家阿爾文·托夫勒在他的著作《第三次浪潮》中,就明確提出:“數據就是財富”,並且,將大數據稱為“第三次浪潮的華彩樂章”。

第一次浪潮:農業階段,約1萬年前開始

第二次浪潮:工業階段,17世紀末開始

第三次浪潮:資訊化階段,20世紀50年代後期開始。

 

歸納來說,大數據的價值主要來自於兩個方面:

 

1. 幫助企業瞭解用戶

 

大數據通過相關性分析,將客戶和產品、服務進行關係串聯,對用戶的偏好進行定位,從而提供更精准、更有導向性的產品和服務,提升銷售業績。

 

典型的例子就是電商。像阿裏淘寶這樣的電子商務平臺,積累了大量的用戶購買數據。在早期的時候,這些數據都是累贅和負擔,存儲它們需要大量的硬體成本。

 

但是,現在這些數據都是阿裏最寶貴的財富。通過這些數據,可以分析用戶行為,精准定位目標客群的消費特點、品牌偏好、地域分佈,從而引導商家的運營管理、品牌定位、推廣行銷等。

 

2.幫助企業瞭解自己

 

企業生產經營需要大量的資源,大數據可以分析和鎖定資源的具體情況,例如儲量分佈和需求趨勢。這些資源的可視化,可以幫助企業管理者更直觀地瞭解企業的運作狀態,更快地發現問題,及時調整運營策略,降低經營風險。

 

大數據的產業鏈  

 

大數據的產業鏈,和大數據的處理流程是緊密相關的。簡單來說,就是生產數據、聚合數據、分析數據、消費數據。每個環節,都有相應的角色、企業。

 

從目前的情況來看,國外廠商在大數據產業佔據了較大的份額,尤其是上游領域,基本上都是國外企業。國內IT企業相比而言,存在較大的差距。

 

大數據面臨的挑戰

 

除了數據管理技術難度之外,大數據的******挑戰,就是安全。

 

數據是資產,也是隱私。沒有人願意自己的隱私被暴露,所以,人們對自己的隱私保護越來越重視。政府也在不斷加強對公民隱私權的保護,出臺了很多法律。歐盟在2018年出臺了有史以來最嚴厲的GDPR(《一般數據保護法案》),把網路數據保護上升到前所未有的高度

 

在這種情況下,企業獲取用戶數據,就需要慎重考慮,是否符合倫理和法律。一旦違法,將付出極為沉重的代價。此外,即使企業合法獲取數據,也要擔心是否會被惡意攻擊和竊取。這裏面的風險也是不容忽視的。