大數(shù)據(jù),顧名思義,就是大量的數(shù)據(jù)。
更專業(yè)來說,大數(shù)據(jù),是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)軟件工具能力范圍的數(shù)據(jù)集合。
我們通常說:“量變引起質(zhì)變”。大數(shù)據(jù),就屬于這種情況。
當(dāng)數(shù)據(jù)體量增加到一定程度時(shí),相關(guān)技術(shù)、理念、思維等,都隨之發(fā)生質(zhì)變,從而形成了一個(gè)新的領(lǐng)域,這就是大數(shù)據(jù)領(lǐng)域。
大數(shù)據(jù),通過對(duì)海量數(shù)據(jù)的采集、分析和處理,尋找其中的特征和趨勢(shì),提煉更多的高價(jià)值信息,用于改善業(yè)務(wù)流程,或者輔助決策行為。
在大數(shù)據(jù)領(lǐng)域,我們經(jīng)??吹揭恍╆P(guān)于3V、4V、7V的說法。這些V,到底是什么意思呢?
今天這篇文章,小棗君就簡(jiǎn)單給大家介紹一下。
3V、4V、7V的來源
2001年,美國(guó)麥塔集團(tuán)分析師道格·蘭尼(Doug Laney)在對(duì)大數(shù)據(jù)進(jìn)行理論研究的時(shí)候,發(fā)現(xiàn)大數(shù)據(jù)具備三個(gè)特征。而這三個(gè)特征的英文單詞,恰好又以字母“V”開頭,即:
Volume(體量大)、Variety(多樣化)、Velocity(速度快)。
后來,“3V”這個(gè)特征理論,逐漸被業(yè)界所接受,成為描述大數(shù)據(jù)特征的標(biāo)準(zhǔn)。
再后來,在“3V”的基礎(chǔ)上,業(yè)界的一些專家們又陸續(xù)提出了“4V”、“5V”,甚至“7V”,包括:
Veracity(真實(shí)性)、Value(價(jià)值密度)、Variability(變異性)、Visualization(可視性)等。
所有這些V,就變成了對(duì)大數(shù)據(jù)特征的新定義。
接下來,我們就分別看看,這些“V”具體是什么意思。
No.1 :Volume(體量大)
大數(shù)據(jù),到底有多大?
我們傳統(tǒng)PC和手機(jī)處理的數(shù)據(jù),是GB/TB級(jí)別。例如,我們的硬盤,現(xiàn)在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關(guān)系,大家應(yīng)該都很熟悉了:
1 KB = 1024 B ?(KB - kilobyte)?
1 MB = 1024 KB (MB - megabyte)?
1 GB = 1024 MB (GB - gigabyte)?
1 TB = 1024 GB (TB - terabyte)?
而大數(shù)據(jù)是什么級(jí)別呢?PB/EB級(jí)別。
1 PB = 1024 TB (PB - petabyte)?
1 EB = 1024 PB (EB - exabyte)?
只是看這幾個(gè)字母的話,貌似不是很直觀。我來舉個(gè)例子吧。
1TB,只需要一塊硬盤可以存儲(chǔ)。容量大約是20萬(wàn)張照片或20萬(wàn)首MP3音樂,或者是20萬(wàn)部電子書。
1PB,需要大約2個(gè)機(jī)柜的存儲(chǔ)設(shè)備。容量大約是2億張照片或2億首MP3音樂。如果一個(gè)人不停地聽這些音樂,可以聽差不多兩千年。
1EB,需要大約2000個(gè)機(jī)柜的存儲(chǔ)設(shè)備。如果并排放這些機(jī)柜,可以連綿1.2公里那么長(zhǎng)。如果擺放在機(jī)房里,需要21個(gè)標(biāo)準(zhǔn)籃球場(chǎng)那么大的機(jī)房,才能放得下。
阿里、百度、騰訊這樣的互聯(lián)網(wǎng)巨頭,數(shù)據(jù)量據(jù)說已經(jīng)接近EB級(jí)。
EB還不是最大的。目前全人類的數(shù)據(jù)量,是ZB級(jí)。
1 ZB = 1024 EB (ZB - zettabyte)?
根據(jù)IDC的數(shù)據(jù),在2020年,全球創(chuàng)建、捕獲、復(fù)制和消耗的數(shù)據(jù)總量約為64ZB。而到了2025年,全球數(shù)據(jù)總量可能會(huì)達(dá)到驚人的163ZB。如果建一個(gè)機(jī)房來存儲(chǔ)這些數(shù)據(jù),那么,這個(gè)機(jī)房的面積將比196個(gè)鳥巢體育場(chǎng)還大。
人類社會(huì)的數(shù)據(jù)體量不僅大,增長(zhǎng)速度也很快——每年增長(zhǎng)50%。也就是說,每?jī)赡昃蜁?huì)增長(zhǎng)一倍多。
數(shù)據(jù)的增長(zhǎng),為什么會(huì)如此之快?
說到這里,就要回顧一下人類社會(huì)數(shù)據(jù)產(chǎn)生的三個(gè)重要階段。
第一個(gè)階段,是1940-1990年。
計(jì)算機(jī)和數(shù)據(jù)庫(kù)被發(fā)明之后,數(shù)據(jù)管理的復(fù)雜度大大降低。各行各業(yè)開始產(chǎn)生了計(jì)算機(jī)數(shù)據(jù),并記錄在數(shù)據(jù)庫(kù)中。這時(shí)的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主(待會(huì)解釋什么是結(jié)構(gòu)化數(shù)據(jù))。數(shù)據(jù)的產(chǎn)生方式,是被動(dòng)的。
第二個(gè)階段,是1990-2010年。
伴隨著互聯(lián)網(wǎng)的爆發(fā),網(wǎng)絡(luò)內(nèi)容開始迅速增長(zhǎng),增加了很多的專業(yè)輸出內(nèi)容(PGC)。Web2.0出現(xiàn)后,人們開始使用博客、facebook、youtube這樣的社交網(wǎng)絡(luò),輸出大量的用戶原創(chuàng)內(nèi)容(UGC),從而主動(dòng)產(chǎn)生了大量的數(shù)據(jù)。移動(dòng)智能終端時(shí)代的到來,也加速了該階段數(shù)據(jù)的產(chǎn)生。
第三個(gè)階段,是2010年至今。
隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點(diǎn)(例如遍布各個(gè)角落的傳感器、攝像頭)開始自動(dòng)產(chǎn)生大量的數(shù)據(jù)。企業(yè)的數(shù)字化轉(zhuǎn)型,構(gòu)建了大量的系統(tǒng),沉淀和管理這些數(shù)據(jù)。人類的數(shù)據(jù)總量,再次躍升。
經(jīng)過了“被動(dòng)-主動(dòng)-自動(dòng)”這三個(gè)階段的發(fā)展,最終導(dǎo)致了人類數(shù)據(jù)總量的爆炸式膨脹。
值得一提的是,如今,隨著我們逐漸進(jìn)入AI智能時(shí)代,很可能會(huì)迎來第四次數(shù)據(jù)暴增階段。以AIGC為代表的智能機(jī)器生產(chǎn)內(nèi)容,正在急劇增加。
No.2 :Variety(多樣化)
多樣性主要體現(xiàn)在三個(gè)方面——數(shù)據(jù)來源多、數(shù)據(jù)類型多和數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng)。
數(shù)據(jù)來源多:
如前面所說,數(shù)據(jù)來源于不同的應(yīng)用系統(tǒng)和設(shè)備。
例如,企業(yè)所產(chǎn)生的營(yíng)銷數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)等,互聯(lián)網(wǎng)行業(yè)所產(chǎn)生的社交內(nèi)容數(shù)據(jù)、訂單數(shù)據(jù)、用戶數(shù)據(jù)等,政府部門所產(chǎn)生的社會(huì)治理數(shù)據(jù)、地理數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)等。
數(shù)據(jù)類型多:
數(shù)據(jù)又分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù),是指可以用預(yù)先定義的數(shù)據(jù)模型表述,或者,可以存入關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)。例如,一個(gè)班級(jí)所有人的年齡、一個(gè)超市所有商品的價(jià)格,這些都是結(jié)構(gòu)化數(shù)據(jù)。
而網(wǎng)頁(yè)文章、郵件內(nèi)容、圖像、音頻、視頻等,都屬于非結(jié)構(gòu)化數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù),介于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間。如XML、JSON等格式的數(shù)據(jù),它們有一定的組織形式,但不如結(jié)構(gòu)化數(shù)據(jù)那樣嚴(yán)格。
目前,非結(jié)構(gòu)化數(shù)據(jù)的占比是最高的。例如,在互聯(lián)網(wǎng)領(lǐng)域里,非結(jié)構(gòu)化數(shù)據(jù)的占比已經(jīng)超過了80%。
數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng):
數(shù)據(jù)與數(shù)據(jù)之間,有一定的關(guān)聯(lián)性,而且頻繁交互。
例如,游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有很強(qiáng)的關(guān)聯(lián)性。
No.3 :Velocity(速度快)
這個(gè)特性,指的是大數(shù)據(jù)的產(chǎn)生速度快、處理速度快、傳播速度快。從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小。
數(shù)據(jù)產(chǎn)生速度快,體現(xiàn)在生產(chǎn)生活中的方方面面。
我們還是用數(shù)字來說話:
就在剛剛過去的這一分鐘,數(shù)據(jù)世界里發(fā)生了什么?
Email:2000萬(wàn)封被發(fā)出
Google:380萬(wàn)次搜索請(qǐng)求被提交
Youtube:2100分鐘的視頻被上傳
Facebook:69.5萬(wàn)條狀態(tài)被更新
12306:9000張車票被賣出
……
怎么樣?是不是瞬息萬(wàn)變?
數(shù)據(jù)處理速度快,體現(xiàn)在大數(shù)據(jù)可以在實(shí)時(shí)分析和決策需求的推動(dòng)下,通過實(shí)時(shí)處理、并行處理等方式,快速對(duì)所產(chǎn)生的數(shù)據(jù)進(jìn)行處理。
這就要求大數(shù)據(jù)系統(tǒng)具備高并發(fā)、低延遲的能力。舉例來說,大數(shù)據(jù)所采用的流式處理技術(shù),能夠在數(shù)據(jù)不斷產(chǎn)生的同時(shí)進(jìn)行實(shí)時(shí)處理,確保系統(tǒng)能夠及時(shí)獲取并利用最新的信息。
數(shù)據(jù)傳播速度快,體現(xiàn)在大數(shù)據(jù)與以往的檔案、廣播、報(bào)紙等傳統(tǒng)數(shù)據(jù)載體不同。大數(shù)據(jù)的交換和傳播,是通過互聯(lián)網(wǎng)等方式實(shí)現(xiàn)的,遠(yuǎn)比傳統(tǒng)媒介信息交換的傳播速度快。
No.4?:Veracity(真實(shí)性)
數(shù)據(jù)很多,但也要真實(shí)才行。
大數(shù)據(jù)的真實(shí)性,指的是數(shù)據(jù)的質(zhì)量和可信度。
在大數(shù)據(jù)環(huán)境中,由于數(shù)據(jù)來源廣泛且多樣,就會(huì)導(dǎo)致容易出現(xiàn)錯(cuò)誤、冗余和不一致的數(shù)據(jù),進(jìn)而影響到最終分析的準(zhǔn)確性和可靠性。
確保大數(shù)據(jù)的真實(shí)性,需要采用數(shù)據(jù)清洗、元數(shù)據(jù)管理、數(shù)據(jù)治理等手段。
此外,隨著技術(shù)的發(fā)展,越來越多的技術(shù)工具和服務(wù)被開發(fā)出來,用于對(duì)大數(shù)據(jù)真實(shí)性的管理和優(yōu)化。例如數(shù)據(jù)驗(yàn)證工具、自動(dòng)化的數(shù)據(jù)清理流程、先進(jìn)的統(tǒng)計(jì)方法用于檢測(cè)異常值等。
No.5 :Value(價(jià)值密度)
大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來的,就是價(jià)值密度很低。數(shù)據(jù)中真正有價(jià)值的,只是其中的很少一部分。
例如通過監(jiān)控視頻尋找犯罪分子的相貌,也許數(shù)十TB的視頻文件,真正有價(jià)值的,只有幾秒鐘。
例如,2014年美國(guó)波士頓爆炸案,現(xiàn)場(chǎng)調(diào)取了10TB的監(jiān)控?cái)?shù)據(jù)(包括移動(dòng)基站的通訊記錄,附近商店、加油站、報(bào)攤的監(jiān)控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。這張照片的價(jià)值,毋庸置疑。
大數(shù)據(jù)中包含很多低價(jià)值的信息,而且,信息碎片化的情況嚴(yán)重。因此,需要通過深度分析和挖掘,才能發(fā)現(xiàn)有用的內(nèi)容。
數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等技術(shù),正在逐漸提升數(shù)據(jù)分析和挖掘的效率,幫助人們從低價(jià)值密度的數(shù)據(jù)中提取高價(jià)值的信息。
No.6 :Variability(變異性)
不要怕!這里的變異,并不是生化危機(jī)。
大數(shù)據(jù)的變異性,指的是數(shù)據(jù)在處理過程中可能發(fā)生變化的能力,也可以理解為數(shù)據(jù)的動(dòng)態(tài)性、不確定性。
變異性包括幾個(gè)方面:
數(shù)據(jù)分布的不均勻性。
大數(shù)據(jù)集合可能包含來自不同來源、不同時(shí)間、不同地點(diǎn)的數(shù)據(jù),這使得數(shù)據(jù)的分布呈現(xiàn)出不均勻性。不同的子集,可能具有不同的統(tǒng)計(jì)性質(zhì)。在數(shù)據(jù)分析和建模時(shí),需要考慮這個(gè)因素。
數(shù)據(jù)的動(dòng)態(tài)性。
大數(shù)據(jù)往往是動(dòng)態(tài)變化的,尤其是實(shí)時(shí)場(chǎng)景(例如股價(jià))。變化速度,也從以前的秒級(jí),變成了現(xiàn)在的毫秒級(jí),甚至更短。這就要求大數(shù)據(jù)系統(tǒng)和技術(shù)必須能夠適應(yīng)這個(gè)動(dòng)態(tài)變化的特性。
數(shù)據(jù)質(zhì)量的波動(dòng)。
前面說了,大數(shù)據(jù)中可能包含大量的噪音、異常值和錯(cuò)誤。這些負(fù)面因素,也可能隨時(shí)間變化,導(dǎo)致數(shù)據(jù)質(zhì)量出現(xiàn)明顯波動(dòng)。
環(huán)境因素的影響。
大數(shù)據(jù)的變異性,還可能受到環(huán)境因素的影響,如天氣、地理位置、社會(huì)事件等。對(duì)于一些特殊場(chǎng)景的大數(shù)據(jù)應(yīng)用,需要考慮這些外部因素可能導(dǎo)致的變化。
No.7 :可視性(Visualization)
這個(gè)大家應(yīng)該比較熟悉。我們現(xiàn)在在很多的政府部門和企業(yè),都會(huì)看到數(shù)據(jù)大屏,其實(shí)也就是可視性的一種體現(xiàn)。
大數(shù)據(jù)的可視性,是指利用圖形化、圖像化的方式,對(duì)大數(shù)據(jù)進(jìn)行呈現(xiàn)。這種方式,可以更直觀地展示數(shù)據(jù)的模式、趨勢(shì)和關(guān)系,快速把握數(shù)據(jù)的關(guān)鍵特征。
可視化,能夠幫助人們更好地理解和解釋復(fù)雜的數(shù)據(jù)集,提高對(duì)信息的洞察力,促使更明智的決策。
除了觀看之外,可視化也可以借助輔助工具,提供一些交互性功能。
例如,用戶能夠自由選擇感興趣的數(shù)據(jù)子集、調(diào)整視圖參數(shù),從而更靈活地進(jìn)行數(shù)據(jù)探索。這有助于用戶深入挖掘數(shù)據(jù),找到其中的規(guī)律和異常。
最后的話
好啦,以上就是大數(shù)據(jù)的7V特性。
當(dāng)然了,這些特性定義,除了前幾個(gè)以外,并沒有一個(gè)官方的認(rèn)可。如果你愿意,也可以再想一個(gè)V,變成8V。
作為一種全新的思維方式和商業(yè)模式,大數(shù)據(jù)正在改變我們的工作和生活。下一期,小棗君再和大家詳細(xì)聊聊,大數(shù)據(jù)到底有哪些應(yīng)用場(chǎng)景,能發(fā)揮什么樣的作用和價(jià)值。