在上面的描述里,不知道你有沒有發(fā)現(xiàn)一個最關(guān)鍵的地方,就是,從挖掘到報表產(chǎn)生,可以讓高管做決定的時間。 簡單的說,大數(shù)據(jù)的意義就是,如何可以在最快的時間里,從海量的數(shù)據(jù)里,挖掘并產(chǎn)生有用的報表,讓高管作出適時的決定。 如果整個過程需要的時間越長,報表的意義就越低。
舉個例子,在澳門或美國拉斯維加斯的賭場,都有一些專門對付不受歡迎賭客的系統(tǒng)。賭場在每一個重要的角落,都安裝有視像頭,從一個賭客進入賭場開始,他的面容已經(jīng)進到賭場的海量數(shù)據(jù)庫里。一家賭場可能安裝有幾千個或以上的視像頭,一天24小時不斷的把海量的數(shù)據(jù),傳送到數(shù)據(jù)庫里。賭場當(dāng)然不會只是很被動的等到有老千干了事情,再從海量的數(shù)據(jù)復(fù)查,因為賭場有可能已經(jīng)被騙了很多金錢。賭場的系統(tǒng)會從每一個賭客進入賭場開始,把他的面容特征,和數(shù)據(jù)庫做實時的比較。如果某人的面容,和數(shù)據(jù)庫里不受歡迎賭客的面容一致,賭場就會立刻邀請他離開賭場。整個過程的關(guān)鍵,就是時間。越長的時間,代表賭場有機會被騙的金錢越多。
大數(shù)據(jù)的核心設(shè)備,當(dāng)然是存儲系統(tǒng)。所有的數(shù)據(jù),都是從存儲系統(tǒng)送到應(yīng)用服務(wù)器分析計算,再產(chǎn)生報表。在整個過程里,數(shù)據(jù)會在存儲系統(tǒng)和應(yīng)用服務(wù)器間來回很多遍。時間的關(guān)鍵,就在于存儲系統(tǒng)的IOPS(Input/Output Operations Per Second,每秒進行讀寫操作的次數(shù))。存儲系統(tǒng)的IOPS越高,整個數(shù)據(jù)挖掘的時間就越短,就是這么簡單。
但是,往往很多用戶都沒有在這一點上有太多的了解,或是,包括存儲系統(tǒng)供應(yīng)商的人,可能也沒有太多的了解。結(jié)果是,實施后的數(shù)據(jù)挖掘方案,所需要產(chǎn)生報表的時間太長,根本沒法滿足原來想要的目標(biāo),并導(dǎo)致整個數(shù)據(jù)挖掘系統(tǒng)項目的失敗,投進去的錢變成白投。
所以,在你為一個大數(shù)據(jù)項目立項時候,一定要有很明確的目標(biāo),而目標(biāo)不單是你需要的報表內(nèi)容,更需要是獲取報表所需要的時間。目標(biāo)明確后,一定要確保存儲系統(tǒng)的IOPS足夠支撐你定的目標(biāo)。如果系統(tǒng)供應(yīng)商的方案顧問在這一點上沒有很明確的意見,我建議你可以找別家來談,因為他們根本沒有抓到數(shù)據(jù)挖掘的核心重點。