由于移動互聯(lián)網(wǎng)和云計算的崛起,數(shù)據(jù)量的激增讓大數(shù)據(jù)概念在互聯(lián)網(wǎng)行業(yè)中炒的十分火熱。根據(jù)IDC 2011年發(fā)布的Digital Universe Study,全球信息總量每過兩年,就會增長一倍。僅在2011年,全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1.8萬億GB)。相較2010年同期上漲超過1ZB,到2020年這一數(shù)值將增長到35ZB,這就是大數(shù)據(jù)的創(chuàng)建和產(chǎn)生。
“大數(shù)據(jù)(Big Data)”并非新生事物,它在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)、自動控制等科學(xué)領(lǐng)域,以及軍事、通訊、金融等行業(yè)業(yè)已存在多年。近年來,隨著互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展,大數(shù)據(jù)愈來愈得到人們的關(guān)注,開始煥發(fā)出勃然生機(jī)。2012年初,《紐約時報》撰文,宣告“大數(shù)據(jù)時代”已然降臨。文章指出,“大數(shù)據(jù)”正在對各個領(lǐng)域都造成影響。舉例而言,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,越來越多的決策行為將日益依賴于對數(shù)據(jù)的收集和梳理分析而做出,基于經(jīng)驗(yàn)和直覺的判斷將被質(zhì)疑;而在公共衛(wèi)生、經(jīng)濟(jì)發(fā)展和經(jīng)濟(jì)預(yù)測等領(lǐng)域中,“大數(shù)據(jù)”的預(yù)見能力也已嶄露頭角。
Gartner對“大數(shù)據(jù)”做出定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這一定義指出大數(shù)據(jù)將成為企業(yè)和社會的重要資產(chǎn)。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣的數(shù)據(jù)中,快速獲得有價值的信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程是指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)則關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。
大數(shù)據(jù)具備四個層面的特點(diǎn),它們分別是:第一,數(shù)據(jù)體量巨大:從TB級別,躍升到PB級別,甚至EB級別;第二,數(shù)據(jù)類型繁多:數(shù)據(jù)多樣,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等,幾乎無所不包。第三,價值密度低:不相關(guān)信息數(shù)量龐大,需要深度挖掘分析。例如,在連續(xù)不斷的視頻監(jiān)控過程中,可能有用的數(shù)據(jù)僅有一兩秒。第四,處理速度快:“1秒定律”,即實(shí)時分析而非批量式分析,立竿見影而非事后見效,而這與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個“V”——Volume、Variety、Value、Velocity。
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,“數(shù)據(jù)即資產(chǎn)”這一觀點(diǎn)在業(yè)界已達(dá)成共識。如果說云計算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個人生活服務(wù),則是大數(shù)據(jù)的核心議題,也是云計算內(nèi)在的靈魂和必然的升級方向。從技術(shù)發(fā)展的角度來看,大數(shù)據(jù)仍處于高速成長期。
大數(shù)據(jù)是具有國家戰(zhàn)略意義的新興產(chǎn)業(yè),正受到政府的高度關(guān)注。《“十二五”國家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃》提出支持海量數(shù)據(jù)存儲、處理技術(shù)的研發(fā)與產(chǎn)業(yè)化;《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》中,也將信息處理技術(shù)列為四項關(guān)鍵技術(shù)創(chuàng)新工程之一,其中包括海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,另外三項關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都是大數(shù)據(jù)產(chǎn)業(yè)的重要組成部分,與大數(shù)據(jù)產(chǎn)業(yè)發(fā)展密切相關(guān)。