Gartner公司對于大數(shù)據(jù)的定義是,大數(shù)據(jù)是高容量,高速度以及種類繁多的信息資產(chǎn),即3V。這些大量復雜數(shù)據(jù)無法用傳統(tǒng)方式處理。大數(shù)據(jù)用于獲取見解,檢測威脅,預測趨勢以實現(xiàn)最佳生產(chǎn)。
人腦從來沒有過無錯誤的特權(quán)。這不是為什么我們更偏向于技術(shù)-一個提供完美結(jié)果的平臺。好吧,事實不同。一切都有自己的風險。大數(shù)據(jù)也是如此。為了清楚起見,以下看與大數(shù)據(jù)相關(guān)的問題。
準確性
許多人認為,數(shù)據(jù)越多,準確性越好。這不是真的。大量數(shù)據(jù)來自各種不完善的來源。這可能導致無組織,不準確的數(shù)據(jù)或見解。當這些值僅僅是近似值時,我們將失去精度。所有公司都沒有能力實時處理大量數(shù)據(jù)。因此,他們使用采樣來分析數(shù)據(jù)。此過程使用來自云的少量數(shù)據(jù)樣本,并嘗試獲取見解。這導致不正確的結(jié)論和決定。
數(shù)據(jù)是否一致?
數(shù)據(jù)必須一致才能獲得正確的見解。數(shù)據(jù)永遠不會是靜態(tài)的;它一直在變化。由于數(shù)據(jù)收集來自多個來源,因此保持一致性并不容易。如果數(shù)據(jù)不一致,用戶可能會誤會。對于同一查詢獲得不同的答案可能會導致這種不一致。
數(shù)據(jù)算法中的偏見
由于這些數(shù)據(jù)塊來自多個來源,因此并不總是可信的。這些數(shù)據(jù)離偏差不遠。由于人的大腦參與其中,因此這些不是客觀價值或信息。某些數(shù)據(jù)可能包含從其源繼承的偏差和錯誤值。
使用算法進行數(shù)據(jù)處理也會導致偏差。數(shù)據(jù)算法中的這些偏見不是一本公開的書。它們?nèi)匀槐徽J為是黑匣子,這使我們無法了解其根源和目的。這可能會導致誤解。例如,人們可以用各種方式來解釋社交媒體語言。如果算法被設計為以性別歧視或種族主義的方式理解它,則會導致錯誤的見解。這肯定會影響用戶,在其他情況下也會影響您的業(yè)務成功。
如何使事情變得更好?
所有這些偏見不能使大數(shù)據(jù)消失。大數(shù)據(jù)將仍然是有效業(yè)務管理的重要方面。因此,它需要設置正確。
•應該改善數(shù)據(jù)質(zhì)量和組織。為確保這一點,公司應了解其數(shù)據(jù)要求并定義相關(guān)數(shù)據(jù)。這些數(shù)據(jù)應該以易于管理的方式進行分類和存儲,以獲得有效的結(jié)果。
•一切都需要偶爾清潔。應該清除數(shù)據(jù)以清除臟數(shù)據(jù),這些臟數(shù)據(jù)離完整性很遠。這將使我們能夠創(chuàng)建一個完整且相關(guān)的數(shù)據(jù)湖。
•更好的治理可以輕松解決數(shù)據(jù)流和安全問題。例如,SAPDataHub可確保最大程度地集成和管理數(shù)據(jù)庫,以產(chǎn)生有效的業(yè)務策略。
•為了增加對技術(shù)的信任,必須確保對用戶的最大透明度。更好地理解所涉及的來源,偏見和錯誤將對客戶產(chǎn)生積極影響。更少的操縱和更多的統(tǒng)計證據(jù)可以幫助贏得信任。