大數(shù)據(jù)技術(shù)能夠幫助企業(yè)用戶在茫茫的數(shù)據(jù)海洋里快速找到所需要的東西。大數(shù)據(jù)分析相關(guān)的人才之爭即將展開。
對于推特(Twitter)來說,處理海量的用戶數(shù)據(jù)是一個(gè)非常令人頭疼的問題,為此他們專門收購了一家公司幫助他們做這項(xiàng)工作。推特的成功完全取決于其對用戶所產(chǎn)生數(shù)據(jù)的充分利用。他們需要處理大量的數(shù)據(jù):推特?fù)碛?億多個(gè)托管賬戶,而這些賬戶每天會(huì)產(chǎn)生2.3億條推文。
2011年7月份,社交網(wǎng)站巨子推特收購了BackType公司及該公司的Storm軟件,后者能夠從語法上實(shí)時(shí)分析數(shù)據(jù)流,例如數(shù)百萬條的推文。收購之后,推特公布了Storm的源代碼,無意使該軟件商品化。Storm對于推特的價(jià)值在于其特殊的工作方式,因?yàn)檫@有助于識(shí)別新出現(xiàn)話題。比方說,推特使用該軟件能夠?qū)崟r(shí)計(jì)算出Web地址在多個(gè)推特用戶間的共享程度。
推特的Storm 軟件首席工程師Nathan Marz解釋說:“這一工作實(shí)際上是一種高強(qiáng)度的計(jì)算,涉及數(shù)千個(gè)數(shù)據(jù)調(diào)用和數(shù)百萬份的用戶記錄。”在使用一臺(tái)機(jī)器的情況下,計(jì)算Web地址的范圍需要花上10分鐘的時(shí)間。但是如果使用10臺(tái)機(jī)器,那么計(jì)算只需要幾秒鐘。對于靠新興趨勢銷售廣告掙錢的公司而言,更快的運(yùn)作非常關(guān)鍵。
推特等公司發(fā)現(xiàn),他們手中掌握著大量的數(shù)據(jù),而這些數(shù)據(jù)可幫助實(shí)現(xiàn)利潤的最大化,并提高效率。而實(shí)現(xiàn)這些目標(biāo)的前提是,他們能夠快速組織和分析這些數(shù)據(jù)。目前大量新技術(shù)的出現(xiàn)使得這一目標(biāo)成為可能,這些新技術(shù)大多數(shù)是開源技術(shù)。
團(tuán)購網(wǎng)站LivingSocial 的CTO Aaron Batalion說:“如果我們能夠更好地理解用戶關(guān)注什么,利用這些數(shù)據(jù)提供更好的服務(wù)體驗(yàn),那么我們無疑將獲得競爭優(yōu)勢。”目前LivingSocial使用的是Apache Hadoop數(shù)據(jù)處理平臺(tái),以收集更多的用戶關(guān)注信息。
Batalion說:“開發(fā)出一款產(chǎn)品,然后讓它們工作起來就萬事大吉的日子已經(jīng)結(jié)束了。為了獲得成功,你必須要想主意、測試它們、進(jìn)行迭代、使用數(shù)據(jù)和分析法去搞清楚哪些在工作,哪些沒有。這是我們使用大數(shù)據(jù)基礎(chǔ)設(shè)施的方式。”
大數(shù)據(jù)越來越大
2011年5月,咨詢公司McKinsey and Company公布了一份報(bào)告。該報(bào)告預(yù)測了企業(yè)在未來幾年將會(huì)如何被數(shù)據(jù)洪流所淹沒。他們還預(yù)測了包括醫(yī)療、公共部門和制造業(yè)等行業(yè)將從對快速增長的數(shù)據(jù)的分析中獲益。
收集和分析交易數(shù)據(jù)可以讓企業(yè)洞察到客戶的選擇,讓他們能夠及時(shí)通知產(chǎn)品設(shè)計(jì)與服務(wù)部門,同時(shí)讓他們對新出現(xiàn)的問題進(jìn)行快速補(bǔ)救。報(bào)告總結(jié)稱:“對大數(shù)據(jù)的使用將成為單個(gè)企業(yè)的競爭力與增長的重要基礎(chǔ)。大數(shù)據(jù)的使用將支撐下一波生產(chǎn)力增長與消費(fèi)者盈余浪潮。”
當(dāng)然,Teradata、IBM和甲骨文等公司推出太字節(jié)級(TB)的數(shù)據(jù)倉庫已有十多年時(shí)間。在這段時(shí)期內(nèi),數(shù)據(jù)更多的是以各種各樣的格式被收集與存儲(chǔ),數(shù)據(jù)能夠在多個(gè)服務(wù)器間被平行處理,而這是大量信息被分析的必要基礎(chǔ)。除了維護(hù)來自數(shù)據(jù)庫的交易型數(shù)據(jù),認(rèn)真挑選數(shù)據(jù)倉庫中的數(shù)據(jù)外,企業(yè)還獲得了服務(wù)器產(chǎn)生的大量日志數(shù)據(jù)、由機(jī)器生成的數(shù)據(jù)表格、來自內(nèi)部與外部社交網(wǎng)絡(luò)的用戶評論,以及其他松散的非結(jié)構(gòu)型數(shù)據(jù)源。
Hortonworks公司的CTO Eric Baldeschwieler說:“傳統(tǒng)的數(shù)據(jù)系統(tǒng)無法很好地處理大數(shù)據(jù),它們無法處理各種各樣的數(shù)據(jù),同時(shí)這些系統(tǒng)無法以相應(yīng)的速度進(jìn)行擴(kuò)展。這是因?yàn)閿?shù)據(jù)增長速度很快,當(dāng)今的數(shù)據(jù)很少是結(jié)構(gòu)化的數(shù)據(jù)。”
研究機(jī)構(gòu)Monash Research的Curt Monash稱,數(shù)據(jù)增長的速度正在以指數(shù)級的速度增長。摩爾定律指出,集成電路上可容納的晶體管數(shù)目,約每隔18個(gè)月便會(huì)增加一倍,性能也將提升一倍。 因此并不奇怪,新服務(wù)器的性能每18個(gè)月就會(huì)增長一倍,這也意味著它們的活動(dòng)將相應(yīng)地產(chǎn)生更多的數(shù)據(jù)集。
MapR公司的營銷副總裁Jack Norris認(rèn)為,大數(shù)據(jù)解決方案代表了數(shù)據(jù)處理方式出現(xiàn)了重大轉(zhuǎn)變。此前,被認(rèn)真挑選出來的數(shù)據(jù)通過被輸入到數(shù)據(jù)倉庫中,在那里它們將被進(jìn)一步檢測。隨著數(shù)據(jù)量的增長,網(wǎng)絡(luò)將成為瓶頸。而Hadoop等分布式系統(tǒng)能夠在數(shù)據(jù)所在地就對數(shù)據(jù)進(jìn)行分析。
大數(shù)據(jù)軟件僅僅是收集企業(yè)產(chǎn)生的所有數(shù)據(jù),讓管理員和分析師以后再考慮如何使用這些數(shù)據(jù),而不是在數(shù)據(jù)倉庫中創(chuàng)建干凈的用戶數(shù)據(jù)子集放置數(shù)據(jù),然后再以有限的預(yù)設(shè)方式應(yīng)付查詢。在這一層面上,與傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,它們要更具備可擴(kuò)展性。
互聯(lián)網(wǎng)推動(dòng)大數(shù)據(jù)增長
在許多方面,谷歌、亞馬遜、雅虎、Facebook和推特等在線服務(wù)巨頭處于如何充分利用這些龐大數(shù)據(jù)集的最前沿。谷歌和雅虎等公司大力支持發(fā)展Hadoop。Facebook的工程師們則大力發(fā)展同樣是開源的Apache Cassandra分布式數(shù)據(jù)庫。
2004年的谷歌白皮書為Hadoop的發(fā)展拉開了帷幕。這份白皮書詳細(xì)地闡述了谷歌將通過一個(gè)名為BigTable的索引系統(tǒng),創(chuàng)建能夠在眾多不同服務(wù)器中分析數(shù)據(jù)的基礎(chǔ)設(shè)施。谷歌一直在內(nèi)部使用BigTable,但是曾經(jīng)創(chuàng)建過Lucene/Solr開源搜索引擎的開發(fā)者Doug Cutting為其創(chuàng)建了一個(gè)開源版本,并以兒子的玩具象命名了該項(xiàng)技術(shù)。
雅虎是Hadoop技術(shù)的早期部署者。該公司在2006年雇用了Cutting并開始將大量的工程工作,以改良這種技術(shù)。目前已跳槽為Hadoop軟件和服務(wù)提供商Cloudera工作的Cutting說:“雅虎有著大量以不同形式相互關(guān)聯(lián)的重要數(shù)據(jù),但是它們存在于相互獨(dú)立的系統(tǒng)之中。”
雅虎目前是Hadoop最大的用戶之一,其在40000多臺(tái)服務(wù)器中部署了該技術(shù)。同時(shí)雅虎正在以多種方式使用該技術(shù)。Hadoop的集群掌握了大量事件的日志文件和用戶點(diǎn)擊區(qū)域的日志文件,廣告活動(dòng)也被存儲(chǔ)在Hadoop集群中。Monash說:“在將數(shù)據(jù)存入關(guān)系型數(shù)據(jù)庫前,Hadoop是一個(gè)組織和壓縮海量數(shù)據(jù)的重要工具。該技術(shù)非常適合跨大量文本集的搜索。”
另一款被互聯(lián)網(wǎng)服務(wù)商使用的大數(shù)據(jù)技術(shù)是Cassandra數(shù)據(jù)庫。Cassandra在單一行上能夠存儲(chǔ)200萬個(gè)列,這便于在現(xiàn)有用戶賬戶上附加更多的數(shù)據(jù),而無需提前獲知數(shù)據(jù)被格式化的方式。使用Cassandra數(shù)據(jù)庫的另一個(gè)好處在于,它能夠在多個(gè)服務(wù)器中擴(kuò)展,幫助企業(yè)更為容易地在單一服務(wù)器或小型服務(wù)器集群中擴(kuò)展其數(shù)據(jù)庫。
Apache Cassandra項(xiàng)目主席、DataStax公司聯(lián)合創(chuàng)始人Jonathan Ellis稱,Cassandra由社交網(wǎng)絡(luò)巨頭Facebook開發(fā),因?yàn)樵摴拘枰粋€(gè)大型分布式數(shù)據(jù)庫,以支持收件箱內(nèi)搜索。
雅虎、Facebook等公司希望使用谷歌的BigTable架構(gòu),因?yàn)樗軌蛱峁┮粋€(gè)定向于行與列的數(shù)據(jù)庫結(jié)構(gòu),并且能夠在大量節(jié)點(diǎn)中擴(kuò)展。BigTable的局限性在于其為定向于主節(jié)點(diǎn)的設(shè)計(jì)。整體運(yùn)作依賴于單一節(jié)點(diǎn)協(xié)調(diào)其他所有節(jié)點(diǎn)中的讀寫活動(dòng)。換句話說,如果主要節(jié)點(diǎn)故障,那么整個(gè)系統(tǒng)將癱瘓。 Ellis說:“這不是一個(gè)最佳設(shè)計(jì)。我們希望一臺(tái)機(jī)器故障后,其他的機(jī)器依然能夠正常運(yùn)行。”
因此,Ellis和他的同行使用由亞馬遜開發(fā)的分布式架構(gòu)Dynamo創(chuàng)建了Cassandra。關(guān)于Dynamo,亞馬遜工程師曾經(jīng)在2007年的報(bào)告中進(jìn)行了詳細(xì)的闡述。亞馬遜最初開發(fā)Dynamo是為了追蹤在線用戶將哪些東西放在了他們的網(wǎng)絡(luò)購物車中。Dynamo的設(shè)計(jì)并不依賴于任何一個(gè)主節(jié)點(diǎn)。任何節(jié)點(diǎn)都能夠?yàn)檎麄€(gè)系統(tǒng)接收數(shù)據(jù)和查詢。數(shù)據(jù)將在多個(gè)主機(jī)中被復(fù)制。
致企業(yè)用戶
對于企業(yè)用戶而言,好的消息是越來越多最初由互聯(lián)網(wǎng)服務(wù)提供商開發(fā)的工具已經(jīng)開始作為開源軟件提供給企業(yè)使用。目前,除了大型互聯(lián)網(wǎng)服務(wù)提供商外,大量企業(yè)也在對大數(shù)據(jù)工具進(jìn)行測試。Baldeschwieler指出,金融機(jī)構(gòu)、電信公司、政府部門、公共事業(yè)公司、零售商和能源公司也都在測試大數(shù)據(jù)系統(tǒng)。他說:“Hadoop和大數(shù)據(jù)部署是不可避免的。它們非常適合不同要求的客戶。”
那么,企業(yè)應(yīng)該如何利用由機(jī)器和社交網(wǎng)絡(luò)產(chǎn)生的大量數(shù)據(jù)呢?事實(shí)上,對于企業(yè)的CIO來說,部署基礎(chǔ)設(shè)施并不是他們面臨的最大挑戰(zhàn)。Cloudera、Hortonworks、MapR等廠商正在致力于大數(shù)據(jù)技術(shù)的商品化,這將讓大數(shù)據(jù)技術(shù)的部署與管理變得更加容易。
研究機(jī)構(gòu)Forrester的分析師James Kobielus說:“相比之下,找到在數(shù)據(jù)分析方面具有天賦的人才才是最大的困難。企業(yè)必須要關(guān)注數(shù)據(jù)科學(xué)。他們必須要雇用統(tǒng)計(jì)建模專家、文本挖掘?qū)<遥约皩iT從事情緒分析的人才。大數(shù)據(jù)依賴于穩(wěn)定的數(shù)據(jù)模型。統(tǒng)計(jì)預(yù)測模式和測試分析模式是處理大數(shù)據(jù)的核心應(yīng)用。”
許多業(yè)內(nèi)人士預(yù)測,大數(shù)據(jù)將會(huì)帶來一個(gè)全新的專業(yè)人員——數(shù)據(jù)科學(xué)家。他們對數(shù)學(xué)和統(tǒng)計(jì)學(xué)方面有著精深的造詣,并且熟悉如何利用大數(shù)據(jù)技術(shù)開展工作。這類人才可能非常稀缺。McKinsey and Company預(yù)測,到2018年,僅美國就短缺14萬至19萬名擁有深度分析技能的人才,短缺150萬名能夠熟練使用大數(shù)據(jù)分析做出有效決策的經(jīng)理人和分析師。
MapR的Norris表示,盡管存在著許多局限性,但是企業(yè)需要不斷開拓進(jìn)取,以保持競爭力和效率。他以進(jìn)入互聯(lián)網(wǎng)搜索領(lǐng)域已有多年時(shí)間的谷歌舉例稱,該公司通過競爭在兩年時(shí)間內(nèi)就控制了整個(gè)市場。“在這很大程度上要?dú)w功于谷歌后臺(tái)架構(gòu)所具有的先進(jìn)性。大數(shù)據(jù)是一個(gè)重大轉(zhuǎn)變,它可能會(huì)導(dǎo)致眾多行業(yè)發(fā)生變革。”Norris說。


