2011年11月6日,全球領先的企業(yè)數(shù)據(jù)集成軟件獨立供應商Informatica(納斯達克代碼:INFA)日前正式發(fā)布了業(yè)界第一款Hadoop環(huán)境下的數(shù)據(jù)編譯轉(zhuǎn)換解決方案——Informatica HParser。該方案可以運行在幾乎所有的Apache Hadoop分布式環(huán)境中,與MapReduce架構平行,能高效率地把無結構的復雜數(shù)據(jù)——諸如網(wǎng)絡記錄、社交媒體數(shù)據(jù)、通話詳細記錄以及其他數(shù)據(jù)格式——轉(zhuǎn)換為Hadoop中結構或半結構格式。當把數(shù)據(jù)轉(zhuǎn)化為更具結構性的格式后,便可以得到更快速的使用和生效,從而驅(qū)動業(yè)務發(fā)展、提高運營效率。
Informatica HParser提供了兩種版本,一是免費的開放社區(qū)版本,另一是商業(yè)版本,旨在幫助企業(yè)用戶從復雜、無結構的數(shù)據(jù)中提煉商業(yè)價值。其中,商業(yè)版本又分為HParser for Logs, Omniture, XML and JSON 和HParser for Industry Standards and Documents,它們都提供30天免費試用期。Informatica HParser在Hadoop環(huán)境中強大的數(shù)據(jù)編譯功能,使企業(yè)用戶能把生產(chǎn)力、生產(chǎn)效率和可擴展性提升到新的高度。企業(yè)用戶采用Informatica HParser作為Hadoop數(shù)據(jù)編譯標準,可以提高現(xiàn)有IT投資的價值。利用Informatica HParser這一覆蓋了大范圍數(shù)據(jù)格式、基于引擎的解決方案,用戶能大大簡化并加快數(shù)據(jù)分析過程,有效避免處理過程中的風險并削減定制編譯腳本的成本。
Informatica HParser的獨特優(yōu)勢包括:
·快速、可視化的開發(fā)——用于創(chuàng)建和維護轉(zhuǎn)換的HParser可視化集成開發(fā)環(huán)境(IDE)可以加速開發(fā)過程,并提高開發(fā)者生產(chǎn)力。HParser還將開發(fā)中的多層次及關系轉(zhuǎn)化為更為扁平、易于使用的格式,并允許業(yè)務規(guī)則進行確認。
·單一引擎覆蓋廣泛的數(shù)據(jù)格式——HParser的轉(zhuǎn)換模塊也稱為庫,目前已使用就緒,覆蓋了大部分通用及業(yè)界專用的數(shù)據(jù)格式,支持XML和JSON,還支持金融行業(yè)的SWIFT、X12、NACHA,醫(yī)療行業(yè)的HL7和HIPAA以及電信的行業(yè)的ASN.1,以及營銷數(shù)據(jù)。
· 支持設備生成記錄——HParser簡化了設備或機器生成內(nèi)容的編譯過程,包括屬性記錄文件,類如Apache weblog以及Omniture log。
·與MapReduce平行運行——HParser通過內(nèi)嵌于MapReduce并平行運行的特征,提高了復雜數(shù)據(jù)大文件的優(yōu)化編譯效果。
· 采用大規(guī)模項目中的最佳實踐——利用HParser,開發(fā)者可以創(chuàng)建MapReduce中的應用邏輯及數(shù)據(jù)源之間的抽象層。該特性允許應用邏輯一經(jīng)創(chuàng)建便可實施在多種不同數(shù)據(jù)源中,這樣可以允許項目便捷地延展。利用相同的集成開發(fā)環(huán)境,設計組件可以拓展到企業(yè)的其他部分,而不僅僅限于Hadoop項目。
Gartner研究副總裁Merv Adrian認為:“到2014年,采用支持新型復雜數(shù)據(jù)及大規(guī)模數(shù)據(jù)分析的企業(yè),將比其他同類企業(yè)在幾乎所有標準化的財務表現(xiàn)分析中領先20個百分點。這種將各類無結構和多結構數(shù)據(jù)編譯為可以被容易地進行分析和處理的數(shù)據(jù)格式的能力,是開發(fā)包括Hadoop在內(nèi)的具有一致信息基礎架構的基礎,以應對大數(shù)據(jù)的挑戰(zhàn)。對于一個以數(shù)據(jù)為中心的企業(yè)而言,找到一種能從使用XML和JSON等標準的各類內(nèi)容中提取信息的通用方式相當重要,因為這樣可以在整個企業(yè)范圍內(nèi)進行數(shù)據(jù)分享和交換。”
Cognizant公司大數(shù)據(jù)卓越中心主任Tom Kersnick認為:“市場對獲取大數(shù)據(jù)全部商業(yè)潛能的需求很旺盛,這種需求促進Cognizant創(chuàng)建了大數(shù)據(jù)卓越中心,而Hadoop正是我們中心的戰(zhàn)略增長驅(qū)動器。在我們與Informatica的合作中,我們對HParser進行了多種測試,HParser顯示出了把復雜的分層文件轉(zhuǎn)化為扁平化數(shù)據(jù)的強大能力,而整個平行編譯過程都是在易于使用的圖形化用戶界面中完成的。隨著我們在大數(shù)據(jù)方面的拓展,這種Hadoop環(huán)境中具有延展性且高效率的數(shù)據(jù)編譯模式對我們提高技能、為快速增長的客戶提供出色服務非常重要。”
Informatica公司高級副總裁、B2B數(shù)據(jù)交換及云數(shù)據(jù)集成總經(jīng)理Juan Carlos Soto表示:“Informatica HParser是Informatica B2B Data Exchange家族產(chǎn)品及Informatica平臺的最新補充,旨在滿足從海量無結構數(shù)據(jù)中提取商業(yè)價值的日益增長的需求。HParser把我們在Hadoop上的最新創(chuàng)新成果、在編譯無結構數(shù)據(jù)方面以及處理業(yè)界標準格式的經(jīng)驗完美地結合起來。在我們的線路圖中,Informatica HParser是幫助企業(yè)利用大數(shù)據(jù)的重要里程碑,旨在幫助企業(yè)用戶最大化其數(shù)據(jù)投資回報。”