據(jù)市場研究公司IDC統(tǒng)計,未來10年里預(yù)計數(shù)字信息總量將在2009年到2020年期間增長44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB = 10億TB)。與此同時,單個數(shù)據(jù)集的文件尺寸也將增加,導(dǎo)致對更大處理能力的需求以便分析和理解這些數(shù)據(jù)集。
一項由Unisphere Research對531名獨立Oracle用戶進(jìn)行的調(diào)查發(fā)現(xiàn),百分之九十的企業(yè)的數(shù)據(jù)量在迅速上漲,其中16%的企業(yè)每年的增長率達(dá)到50%或更高。不少企業(yè)已經(jīng)感受到失控數(shù)據(jù)增長對績效造成的沖擊,其中發(fā)現(xiàn)87%的受訪者將企業(yè)的應(yīng)用程序性能問題歸咎于不斷增長的數(shù)據(jù)量。
為什么人們對大數(shù)據(jù)如此感興趣?大數(shù)據(jù)是一股突破性的經(jīng)濟(jì)和技術(shù)力量,它為IT支持引入了新的基礎(chǔ)架構(gòu)。大數(shù)據(jù)解決方案消除了傳統(tǒng)的計算和存儲的局限。借助于不斷增長的私密和公開數(shù)據(jù),一種劃時代的新商業(yè)模式正在興起,它有望為大數(shù)據(jù)客戶帶來新的實質(zhì)性的收入增長點以及富于競爭力的優(yōu)勢。
大數(shù)據(jù)之華山論劍
盡管"Big Data"可以翻譯成大數(shù)據(jù)或者海量數(shù)據(jù),但大數(shù)據(jù)和海量數(shù)據(jù)是有區(qū)別的。Informatica中國區(qū)首席產(chǎn)品顧問但彬認(rèn)為:"大數(shù)據(jù)"包含了"海量數(shù)據(jù)"的含義,而且在內(nèi)容上超越了海量數(shù)據(jù),簡而言之,"大數(shù)據(jù)"是"海量數(shù)據(jù)"+復(fù)雜類型的數(shù)據(jù)。大數(shù)據(jù)包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù)按照合理的成本和時限捕捉、管理及處理這些數(shù)據(jù)集的能力。大數(shù)據(jù)是由三項主要技術(shù)趨勢匯聚組成:海量交易數(shù)據(jù)、海量交互數(shù)據(jù)、海量數(shù)據(jù)處理。
EMC公司全球高級副總裁、大中華區(qū)總裁葉成輝在接受記者采訪時表示:大數(shù)據(jù)目前沒有統(tǒng)一的定義。通常認(rèn)為,它是海量的非結(jié)構(gòu)化數(shù)據(jù),其特點是數(shù)據(jù)量很大,數(shù)據(jù)的形式多樣化。
NetApp 大中華區(qū)總經(jīng)理陳文所理解的大數(shù)據(jù)包括A、B、C三個要素:大分析(Analytic),高帶寬(Bandwidth)和大內(nèi)容(Content)。
IBM用三個"V"來作為大數(shù)據(jù)的判斷依據(jù),只要滿足了其中的兩個即為大數(shù)據(jù):多樣性(variety)、體量(volume)和速度(velocity)。其中,多樣性是指,數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。體量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的。而速度則是指數(shù)據(jù)處理的速度必須很快。
對于大企業(yè)而言,大數(shù)據(jù)的興起部分是因為計算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。還有就是把計算機聚合成服務(wù)器集群越來越簡單。IDC的數(shù)據(jù)庫管理分析師Carl Olofson認(rèn)為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。
Olofson說,大數(shù)據(jù)"并非總是說有數(shù)百個TB才算得上。根據(jù)實際使用情況,有時候數(shù)百個GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個維度,也就是速度或者時間維度。假如我能在1秒之內(nèi)分析處理300GB的數(shù)據(jù),而通常情況下卻需要花費1個小時的話,那么這種巨大變化所帶來的結(jié)果就會增加極大的價值。所謂大數(shù)據(jù)技術(shù),就是至少實現(xiàn)這三個判據(jù)中的兩個的可承受得起的一種應(yīng)用。"
大數(shù)據(jù)意味著通過更快獲取信息來使做事情的方式變得與眾不同,并因此實現(xiàn)突破。大數(shù)據(jù)被定義為大量數(shù)據(jù)(通常是非結(jié)構(gòu)化的),它要求我們重新思考如何存儲、管理和恢復(fù)數(shù)據(jù)。那么,多大才算大呢?考慮這個問題的一種方式就是,它是如此之大,以至于我們今天所使用的任何工具都無法處理它,因此,如何消化數(shù)據(jù)并把它轉(zhuǎn)化成有價值的洞見和信息,這其中的關(guān)鍵就是轉(zhuǎn)變。
總之,大數(shù)據(jù)已經(jīng)引起了各家IT廠商的關(guān)注,大數(shù)據(jù)備受關(guān)注的原因有兩個,一個數(shù)據(jù)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)挖掘過程困難;第二,數(shù)據(jù)量大,而且更新快,處理及時性要求特別高。
#p#副標(biāo)題#e#
大數(shù)據(jù)引發(fā)新一輪的收購潮
Gartner曾經(jīng)有報告指出,有85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動計算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應(yīng)用。
而IDC在一篇關(guān)于大數(shù)據(jù)的報告中指出,大數(shù)據(jù)的商業(yè)價值是領(lǐng)軍企業(yè)與其他企業(yè)之間最大的顯著差別。那些沒有引入新分析技術(shù)和新數(shù)據(jù)類型的企業(yè),不太可能成為這個行業(yè)的領(lǐng)軍者。
所以,有專家認(rèn)為,"大數(shù)據(jù)"的推動因素主要是來自一些特大型公司,如谷歌、Youtube等。這些公司需要以非常優(yōu)化的方式分析數(shù)據(jù)和讓計算與存儲配合工作。另外,一些來自健康醫(yī)療、地理空間影像和數(shù)字媒體等行業(yè)的各種大數(shù)據(jù),很顯然,這些數(shù)據(jù)到不一定有多大,但是處理這些數(shù)據(jù)集通常要分配到幾個系統(tǒng)耗費超過24個小時的時間才能完成。
一些分析師認(rèn)為,互聯(lián)網(wǎng)上的視頻通訊的瘋狂增長將推動數(shù)據(jù)的持續(xù)增長。但是,據(jù)Ideas International存儲分析師Christian Ober稱,新型電表等智能設(shè)備傳輸數(shù)據(jù)的增長將在更大的范圍內(nèi)推動這些龐大的數(shù)據(jù)集。這是在那里應(yīng)用無數(shù)的傳感器,傳送實時數(shù)據(jù)以便進(jìn)行分析。
伴隨著大數(shù)據(jù)時代的洶涌襲來,業(yè)界IT巨頭也開始行動起來了。IT巨頭紛紛通過收購大數(shù)據(jù)相關(guān)廠商來實現(xiàn)技術(shù)整合。其中,最大的收購要數(shù)Oracle收購Sun。EMC收購Isilon公司,其集群NAS產(chǎn)品就屬于橫向擴(kuò)展(Scale-out)存儲,而該技術(shù)的優(yōu)勢正是處理非結(jié)構(gòu)性數(shù)據(jù)。隨后,EMC收購的Greenplum,則用來補充針對數(shù)據(jù)庫類的大數(shù)據(jù)的解決方案。
IBM收購的Netezza也是類似于Greenplum的技術(shù),充分考慮到了現(xiàn)在的存儲需求。近期,Teradata也在積極地收購行動,先后收購了Aprimo和Aster Data兩家大數(shù)據(jù)技術(shù)處理公司,Teradata的用意非常明顯,搶占即將到來的大數(shù)據(jù)市場的先機。
ESG中國區(qū)總經(jīng)理兼高級分析師王叢表示,大數(shù)據(jù)這一領(lǐng)域?qū)幸恍┬录夹g(shù)推出,在未來1-2年內(nèi),預(yù)計會不斷涌現(xiàn)能處理大型非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。王叢認(rèn)為,目前北美廠商仍走在全球的前列,而中國國內(nèi)的廠商目前仍主要在考慮怎么樣生產(chǎn)存儲和硬件設(shè)備,而沒有考慮到全面的解決方案。EMC、IBM收購這些公司的目的是整合整個解決方案,讓它在IT上是透明的,進(jìn)一步靠近存儲、靠近數(shù)據(jù)。
面對大數(shù)據(jù)來襲,很多IT巨頭IBM、EMC、Teradata等已經(jīng)提前開始布局,通過收購實現(xiàn)產(chǎn)品的整合,以滿足新的市場需求。而一些開源技術(shù)和產(chǎn)品也適時地發(fā)展壯大起來,迎合著各行業(yè)用戶的需求,幾乎成為業(yè)界公認(rèn)的標(biāo)準(zhǔn)技術(shù)了。
大數(shù)據(jù)也有“大智慧”
基于MapReduce的Hadoop引起業(yè)界的廣泛關(guān)注,而且也逐漸得到大批主流數(shù)據(jù)廠商的支持。在大數(shù)據(jù)領(lǐng)域中,包括Hadoop、MapReduce等一些新技術(shù)都得到了更廣泛的應(yīng)用,Hadoop MapReduce為通用計算與分布式架構(gòu)架起了一座橋梁,而傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫技術(shù)則遭遇了前所未有的挑戰(zhàn)。通過使用Apache Hadoop,企業(yè)能夠避于支付大量的軟件許可費用,還可以根據(jù)變更的需求更改原代碼從而得到更高的靈活性。
據(jù)了解,Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來,Hadoop是一個可以更容易開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺,是和各種Apache項目密切相關(guān)的混合實施環(huán)境。
Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性(fault-tolerent)的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。Hadoop具有以下主要特點:
1 擴(kuò)容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(jié)(PB)數(shù)據(jù)。
2 成本低(Economical):可以通過普通機器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計可達(dá)數(shù)千個節(jié)點。
3 高效率(Efficient):通過分發(fā)數(shù)據(jù),hadoop可以在數(shù)據(jù)所在的節(jié)點上并行地(parallel)處理它們,這使得處理非常的快速。
4 可靠性(Reliable):hadoop能自動地維護(hù)數(shù)據(jù)的多份復(fù)制,并且在任務(wù)失敗后能自動地重新部署(redeploy)計算任務(wù)。
同時,不同的IT公司在面對大數(shù)據(jù)的時候處理方式也有不同。SAP中國區(qū)企業(yè)信息管理咨詢資深顧問杜韜在接受記者采訪時,分析了應(yīng)該如何處理分析大數(shù)據(jù)。一方面,在數(shù)據(jù)中心使用標(biāo)準(zhǔn)的虛擬化以及分布式存儲;另一方面,推出內(nèi)存計算技術(shù)應(yīng)對數(shù)據(jù)應(yīng)用和分析的挑戰(zhàn)。杜韜認(rèn)為,傳統(tǒng)的架構(gòu)存在很大的瓶頸,磁盤讀取是以毫秒為單位,而內(nèi)存讀取則是納秒為單位的。因此,以前需要在應(yīng)用層做的計算分析,比如預(yù)測分析或者大量運算,都應(yīng)該放到內(nèi)存里操作,從而實現(xiàn)性能提升,以充分利用數(shù)據(jù)。
Yahoo!北京全球軟件研發(fā)中心架構(gòu)師韓軼平分析稱,Yahoo通過三步應(yīng)對大數(shù)據(jù):數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)處理等。在數(shù)據(jù)采集方面,Yahoo建立幾個數(shù)據(jù)中心、幾十萬臺機器的實時搜集數(shù)據(jù)系統(tǒng)是一個主干道負(fù)責(zé)把數(shù)據(jù)經(jīng)過過濾、清理以后進(jìn)行整合,在高可靠性的情況下,把它放到Hadoop平臺。雖然相對來說精度很高、效果很好,但速度會慢一些。為了滿足實時性的需求,還有一個旁路系統(tǒng),旁路系統(tǒng)在秒級能夠把數(shù)據(jù)匯到主干道上,這是數(shù)據(jù)采集的部分。在數(shù)據(jù)存儲方面,基本上以HDFS為核心。而在數(shù)據(jù)處理方面,主要技術(shù)是Hadoop、MapReduce以及Yahoo自己開發(fā)的Pig。
但是,很多專家也提出來,開源技術(shù)一般是沒有商業(yè)支持的,所以這些東西還必須讓其進(jìn)化一段時間,逐漸剔除各種缺陷,而這一般需要數(shù)年的時間。這就是說,羽毛未豐的大數(shù)據(jù)技術(shù)Hadoop目前還無法在普通市場上普及。
所以有專家提出EDW(企業(yè)數(shù)據(jù)倉庫)來解決大數(shù)據(jù)的問題。那么,如何在Hadoop和EDW之間做出選擇困擾著許多企業(yè)用戶。Teradata公司的首席客戶官周俊凌認(rèn)為,技術(shù)以及平臺的選擇在大數(shù)據(jù)時代同之前相比并沒有太多的不同,企業(yè)首先考慮的仍然是自身業(yè)務(wù)需求。Hadoop架構(gòu)的存在有它的理由,但是這并不意味著在成本方面會比EDW有更多優(yōu)勢。同時,Teradata公司的首席客戶官周俊凌提醒用戶:"企業(yè)在進(jìn)行技術(shù)的選擇時不應(yīng)只看首次投入的成本,Hadoop不是一勞永逸的,你需要不斷對其進(jìn)行維護(hù),考慮持續(xù)的投入,無論是人力還是物力,它都可能會比傳統(tǒng)的EDW要大。因此企業(yè)不應(yīng)該一味迷信于新技術(shù),無論是購買平臺還是進(jìn)行定制,用戶需要從自身需求出發(fā)。"
原文鏈接:http://server.zol.com.cn/256/2568373.html