
該研究還發現,80%的企業已經實施了大數據分析。然而,目前從數據中看到真正價值的公司比例仍然低得驚人,56%的高管沒有從大數據分析項目中察覺到價值。同樣,根據普華永道的數據,到目前為止,只有16%的企業通過在云端實施數據和分析項目實現了商業價值。
那么,為什么這么多企業在數據和分析項目實際運作中遇到困難呢?因為不同的用例和應用利用不同類型的數據,適用于一種情況的方法并不適用于另一種情況。要知道什么會起作用,同樣,什么不會起作用,必須了解有關這些數據集如何隨著時間的推移而創建、存儲和訪問的一些關鍵細節。
大而簡單與小而復雜
其中一種數據集通常被稱為“大數據”。在過去的十年中,這個術語被用于描述服務于在線客戶服務的應用創建的數據集。圍繞大數據建立的技術是為了處理一直在流動的大量數據而創建的。
如今,創建和使用這類數據集的企業數量有所增加。這類數據并不是大型社交媒體和網絡企業的專利,而是在數千家企業中涌現出來。“大數據”這個稱呼現在已經成為很多人的常態。這些數據集很大,更新速度很快,而且有序。這使得數據分析更容易,pb級的信息可以被快速掃描和使用。
然而,并不是所有的數據集都遵循這種模式。運營數據是業務應用在接受訂單時創建的數據,并通過運行業務的企業資源計劃(ERP)應用進行管理。這包括財務和會計系統、供應鏈運營和其他流程。操作數據集不是可以快速大規模處理的有序數據,而是高度連接且極其密集的數據。
這里的挑戰是,建立ERP系統是為了從交易中獲得每一盎司的性能。每個業務職能部門都有自己的交易記錄系統,這些系統經過優化以提高特定功能的性能。
例如,客戶銷售將導致創建付款發票、制造和生產中的銷售訂單,以及內部帳戶中的供應鏈流程和財務分類系統所需的訂單。這些系統都相互連接,每個客戶記錄都必須在每個系統中更新。
實際上,跟蹤業務數據元素和關系的數以萬計的單個數據庫表必須隨著時間的推移進行更新。因為這種優化通常發生在每個領域,所以沒有一個ERP提供整個業務的聯合視圖。
分析運營數據可以幫助了解業務的運行情況。然而,數據集的分離使得很難回答業務想要問的問題。例如,適用于大數據集的方法通常會在相互關聯的ERP數據中失敗。我們今天所知道和使用的數據管道模型是為大數據而建立的,而不是為ERP數據構建的。
設計數據分析方法
數據管道是團隊用來從數據中獲取價值的一組工具和過程。它從商業應用程序中獲取信息,然后清理、組織并將數據呈現給需要的人。對于操作數據,試圖以這種方式應用管道是無效的。
ERP系統用于提高交易速度并保持跨多個表更新客戶記錄的方法,與使用數據管道實現分析的方法并不真正兼容。操作數據不是已經組織好的直接數據,而是分布在多個不同的系統中。
所需的信息可能分布在50個或更多不同的表中,而不是能夠在一個地方查看單個事務。然后,這些表可能需要多次查找和計算,以創建分析師想要的最終結果。
要將數據放入數據管道,需要理解所有這些不同的連接。為了建立這種關系,分析師通常試圖將這些聯系分解成越來越小的部分。這里的目的是創建一個簡化的數據視圖,然后可以運行查詢,而不是試圖一次性處理所有連接。
這種方法的問題是它過度簡化了數據,這意味著分析師只能回答預定義的問題。如果他們還需要其他東西,那就意味著返回源系統以獲取數據并將其調整到合適的狀態的漫長過程。這意味著獲得見解的時間更慢,因此實現結果的時間也更慢。
要解決這個問題,我們必須停止把每個數據分析問題都看成一個更復雜的管道就能解決的解決方案。相反,我們必須考慮如何從一開始就處理連接的數據集。實際上,這意味著讓用戶可以訪問數據,而無需管理將數據傳輸到他們的管道。
它還包括在進行任何查詢之前有正確的分析方法。Gartner將這種方法定義為查詢加速,即在創建任何查詢之前掃描整個數據集進行分析。它把所有的數據都帶到了問題上,以便快速回答問題。這也改善了查詢過程,因為分析師可以隨著時間的推移提出他們想要問的問題,而不是拘泥于既定的問題。
根據需要使用正確的方法
為了使數據分析項目成功,我們必須考慮我們必須達到的目標和存在的目標。少數成功實施數據和分析項目的企業表明,我們必須觀察我們在整個業務中擁有的數據類型,然后在需要的地方應用正確的工具和方法。隨著越來越多的企業利用數據來創造競爭優勢,并幫助決策過程,做好這方面的工作將變得至關重要。