對于大數(shù)據(jù)的準(zhǔn)確定義眾說紛紜,但一般認為Gartner的3V模型是對大數(shù)據(jù)最好解釋——需要全新工具管理的high-volume(大容量)、 high-velocity(高速率)、high-variety(高變化率)信息。到目前為止,許多人對大數(shù)據(jù)的概念還很模糊,為此ODCA(Open Data Center Alliance,開放數(shù)據(jù)中心聯(lián)盟)計劃推出“大數(shù)據(jù)消費者指導(dǎo)手冊”,試圖讓各個企業(yè)了解什么是大數(shù)據(jù)、大數(shù)據(jù)為何重要及如何使用大數(shù)據(jù)獲益。
ODCA(Open Data Center Alliance,開放數(shù)據(jù)中心聯(lián)盟)創(chuàng)立于2010年,是一個全球IT企業(yè)產(chǎn)業(yè)聯(lián)盟,旨在研發(fā)開放式云計算標(biāo)準(zhǔn)。ODCA的高層稱“大數(shù)據(jù)消費者指導(dǎo)手冊”是其云計算成果的延伸。“大數(shù)據(jù)環(huán)境能從許多云的范例中獲益,”ODCA技術(shù)顧問John Pereira說。大數(shù)據(jù)的本質(zhì),特別是容量能在短時間內(nèi)大量擴增的性質(zhì),令其能夠很好地與云環(huán)境融合。“大數(shù)據(jù)能夠讓你更充分地考慮分布式的環(huán)境,一項云范例則可幫助你進一步建立該環(huán)境,”Pereira補充道。
指導(dǎo)手冊總結(jié)了大數(shù)據(jù)平臺對于各行業(yè)的重要性。例如銀行業(yè),可將大量不相關(guān)的資源及潛在的信用卡詐騙信息等融合在一起,以得出更有用的信息。除此之外,手冊還提供了大數(shù)據(jù)的一般定義及術(shù)語,方便企業(yè)與大數(shù)據(jù)服務(wù)商之間的溝通交流。
指導(dǎo)手冊同時也提到了IDC的驚人數(shù)據(jù):現(xiàn)今企業(yè)中有90%的信息都是非結(jié)構(gòu)化數(shù)據(jù),且絕大多數(shù)以文檔、電郵、備注及網(wǎng)絡(luò)內(nèi)容的形式存儲。屬于“大數(shù)據(jù)”范圍的非結(jié)構(gòu)化數(shù)據(jù)還包括傳感器、設(shè)備日志、手機GPS信號、社交網(wǎng)站及網(wǎng)絡(luò)交易等產(chǎn)生的機器數(shù)據(jù)。
“我們試圖向企業(yè)們推薦與廠商無關(guān)的方案,并不會特別地照顧某一個廠商。”Pereira說。ODCA提醒各個企業(yè)需要謹慎部署自己的大數(shù)據(jù)策略,防止事倍功半。“任何人都希望以最高效的方式寫入數(shù)據(jù),那么如何預(yù)寫信息就非常重要了,”ODCA執(zhí)行董事Marvin Wheeler說,“不讓數(shù)據(jù)如傳統(tǒng)方式擴張也完全取決于數(shù)據(jù)的寫入方式。”如何處理數(shù)據(jù)擴張是企業(yè)要面臨的重要問題。據(jù)McKinsey Global Institute的數(shù)據(jù),88%的美國企業(yè)部門數(shù)據(jù)的存儲量大于美國國會圖書館。一些專家估計90%的數(shù)據(jù)是近兩年才生成的。