現在越來越多的公共突發事件當中,尤其是像人為的突發事件,比如說最近像上海的踩踏事件,互聯網也好,大數據也好,能不能發揮一些正能量的作用?防止這種悲劇的再度重演呢?本期IT名人堂的訪談嘉賓是星環科技的聯合創始人孫元浩先生,我們在2015中國Hadoop技術峰會上對他進行了獨家訪談。
孫元浩認為,完全可以用一些新的技術手段來檢測外灘人流的變化,為公安部門和交通部門提供一些信息指導,比如攝像數據充當數據源來做一些提前的預警。通過地鐵刷卡數據、和軌道交通數據來判斷人流量,發現地鐵數據的異常,公安部門可以直接和交通部門協調,從而疏散人流。其次,我們還可以結合數據源運營商基站的信號對數據進行分析,它們包含了用戶手機的大致位置,我們能夠迅速的判斷出人群密度以及變化趨勢。隨著手機的移動,根據基站里手機的移動方向可以預測密度的范圍,這些信息綜合起來可以形成從軌道地下、地面到空中的全方位檢測,這些信息可以迅速反饋給公安,為治安提供導向性的方案。此外,還有一個車流信息數據的采集也是非常重要的,機動車輛經過外灘、乃至全市交通,都會留下一條記錄,我們可以迅速判斷哪些機動車沒有離開,逗留了,從而推斷出這里的車輛可能發生了擠壓狀況。在這種情況下,我們可以立刻反饋給交通部門,所有的營運車輛不允許經過外灘,這種方式也能緩解交通情況,所以綜合這些措施也是能夠做到預防的。
皮皮:在大數據的時代里,數據是一個讓企業很糾結的話題,很多人會認為數據是死的,人是活的,數據挖掘的世界既是一個地雷陣,同時又是金礦,那大數據到底能給我們帶來什么呢?如何在海量的數據里挖掘出有價值的數據為己所用呢?
在采訪中,孫總為我們概括了大數據的三種典型應用場景,其用武之地小到個人、家庭,大到國家,大數據可謂是無所不能。今天Hadoop主要應用場景集中在技術處理上,但是已經有一部分的應用開始偏向機器學習。星環科技與合作伙伴也開始嘗鮮,利用Hadoop技術來處理數據的高級分析,從大數據中挖掘出有價值的數據。
第一個典型的應用場景是利用大數據來滿足實時營銷,比如實時采集用戶手機的位置信息,推送WI-FI的熱點,根據用戶的購物歷史,刷卡記錄來做數據分析,推送個性化的營銷,比如電影票或感興趣的商品等。
第二個典型的應用場景是利用大數據來預測用電量,孫總為我們介紹了一個從事用電數據分析的真實客戶案例。有些省份已經布置了很多智能電表,多達幾千萬戶家庭,電表采集密度每天高達23次,通過電網傳感器的數據可以分析用電量與氣候之間的關系,能夠幫助電力公司來初步的預測未來的電力需求量,同時也能挖掘出企業用電和GDP增長之間的關系。
第三個典型的應用場景是大數據應用在醫療領域,有些企業應用大數據的分析對DNA進行比對。過去對高齡產婦進行檢查,手術存在風險?,F在采用大數據的新技術,通過采集胎兒的DNA序列進行比對,一旦發現胎兒的異常癥狀,就可以采取措施,這種方法與手術相比,更加準確,也無風險的,這種新的技術隨著大數據應用越來越廣泛。
皮皮:60%的Hadoop應用是用在SQL統計領域,最早的Hadoop是用于ETL,包括從數據的萃取到轉制到最后的加載,而現在我們發現像FACEBOOK的數據倉庫也用到了Hadoop 的數據倉庫,那么Hadoop與數據倉庫究竟有什么樣的關系呢?
孫總坦言,互聯網公司從第一天開始就是用Hadoop做數據倉庫,所以Hadoop是互聯網公司建數據的第一選擇,實際上Hadoop是互聯網公司的數據倉庫。而對傳統企業來講,IT架構也發生了比較大的變化,比如在運營商、銀行、物流、飛機等其它行業,Hadoop作為一個數據倉庫的補充,但是把Hadoop運用到這些企業當中的時候存在一個顯著的問題,傳統的IT架構,在上面已經有大的應用了,這些應用很多是基于SQL的,應用類型與復雜程度其實是超過了互聯網公司,所以hadoop在進入了這個領域的時候,有些局限,早期只是做ETL。而隨著hadoop技術的發展,像國外的一些公司包括我們公司都能提供比較完整的SQL支持,這樣使得我們能夠更進一步用hadoop來替代企業的某些數據倉庫。
傳統的數據倉庫像一些大的企業國有銀行,動不動就是幾個億,維護擴建也是幾個億的,成本經費非常昂貴,而Hadoop提供了性價比非常高的方案,這是企業在選擇的時候的一個考慮的重要因素。
除成本外,Hadoop能夠用來處理非結構化數據。對銀行而言,像視頻數據、票據數據,雖然目前對銀行的價值不是太高,但是需要一個存儲機制來存放,Hadoop的技術算法越來越成熟,數據發掘的工具也越來越豐富,這就使得企業在運用Hadoop技術之后能發現額外的一些增值的東西。
孫總預計,傳統的企業IT架構慢慢向Hadoop遷移,未來大概兩三年,企業的傳統IT架構慢慢就會被hadoop來取代。Hadoop會成為企業的數據倉庫的中心,未來hadoop會是各個行業的企業數據倉庫。
皮皮:談到大數據,有3V,Volume(大量)、Velocity(高速)、Variety(多樣),尤其是在物聯網時代,像氣象、交通等實時數據量大,并發度高,那么物聯網大數據與互聯網大數據有什么區別?對企業的技術底層架構有哪些挑戰?
孫總表示,互聯網其實是一個連接人的一個網絡,采集的數據大部分都是人的行為的數據,比如說人的交易的數據、人的上網記錄,而物聯網采集的數據更多是機器的數據。如果比較這兩個數據源的話,我們發現它的數據量是會差一個量級的,全世界人口可能是60億人口,可是有上百億的設備,這些設備如果都采集數據的話呢,它的量會比互聯網的數據大一數量及,所以這個會對未來的數據架構產生一個新的大的挑戰。
第二個特點是,物聯網的數據并發度非常高,而且數據一旦產生需要立刻被處理。孫總舉了一個真實的客戶案例,客戶目前有一千萬個傳感器,每秒鐘一千萬個量級的數據發送量,可能就已經超過很多互聯網公司的數據量,對底層架構的并發要求非常高。
第三個差異化在于互聯網的數據可能是人的行為數據,主要用來分析,可以做一些營銷,但是物聯網數據來說更多的是發現一些自然規律,當然這里面也使用到了大量的技術運算,也會用到大量的復雜的物理和數學的方法。
皮皮:大數據的浪潮風靡全球,與Hadoop類似,Spark也火了。在國外 、Intel、Amazon、Cloudera 等公司率先應用并推廣 Spark 技術,在國內阿里巴巴、百度、淘寶、騰訊、網易、星環等公司敢為人先,Spark 在IT業界的應用可謂星火燎原之勢,未來Spark能否取代Hadoop?
孫總表示,非常希望(Spark)能夠取代HADOOP,從這個整個生態系統的發展趨勢來看,(Spark)會慢慢取代(MapReduce),當然在星環科技的產品當中已經拿(Spark)取代(MapReduce),此外孫總在視頻采訪中還重點為我們講解了Hadoop的分布式計算框架的架構,干貨剖多,請大家點擊視頻觀看詳情。
皮皮:我注意到2015年新年剛開始,你們公司成功完成了新一輪的數千萬的融資了。那我之前也了解到浪潮與你們強強聯手,成功搭建了基于Hadoop的大數據信息化平臺,能不能從合作伙伴的角度來和我們簡單的談一談Hadoop的生態圈?
孫總坦言,希望能夠促進Hadoop真個生態系統的發展,目前有三類合作伙伴,一類是行業應用方案解決方案的提供商,比如在交通行業的合作伙伴,在與我們進行深度的合作,能夠高效的處理數據或者是銀行的數據或者是交通的側重信息。另外一類合作伙伴是我們認證的一些服務商,對他進行培訓,他們幫我們進行安裝部署運維,這些服務工作,第三個是他們的產品與我們是有互補性的有可能是硬件廠商,像浪潮。
皮皮:那最后一個問題了,IDC公司預測,數據每天將增長40%-50%這意味著到2020年總體的數據量將會達到40PB?那非結構話的數據主要來源我們日常的郵件還有論壇。博客社交網絡,包括我們的POSE系統還有機器生成的一些數據了,那么面對這些非結構化的數據,你們提供了一些什么樣的Hadoop解決方案,未來Hadoop還會有哪一些新的版本會發布?
孫元浩認為,未來很多計算框架也會與Hadoop進行融合,等到hadoop3.0的時候,可能會安全性與性能上得到很大的提升,在資源管理效率上得到比較大的增強。
孫總透露,星環科技預計在2015年發布2款新產品,第一款產品針對物聯網部署的大量傳感器產生的數據,專注于處理時序數據,首先會進入新能源行業。它能夠對傳感器產生的大量數據進行高效處理,在內存里存儲數據或者是將SSD上的數據轉成內存存儲,對所有的時序數據進行數據挖掘分析。
第二款產品預計會在2015年下半年推出,這是一款利用Container和Docker來運行Hadoop的現有版本,幫助企業簡化Hadoop的部署流程,有了這個方案以后,企業在部署Hadoop機群的時候,再啟動100個機群的時候可能只需要2、3秒就可以啟動,自動進行擴容,即便機器發生故障也能夠自動遷移。這樣一來,可以大大降低企業管理Hadoop的成本、包括維護的成本,同時也能夠做非常有效的資源隔離,因為運用Container技術能夠做到CPU內存網絡磁盤的隔離,隔離性會比之前更好。如此一來,Hadoop作為企業的數據的計算,能夠滿足多個部門在統一個數據平臺上進行數據分析,就可以通過這種技術有效的實現。