国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

為什么可變性對實時數據分析至關重要
2022-07-15   今日頭條

  像Uber、Facebook和Amazon這樣成功的數據驅動型公司依靠的是實時數據分析,為電子商務提供個性化的客戶體驗,管理車隊和供應鏈,以及實現內部運營的自動化,都需要對最新鮮的數據進行即時洞察。


  為了提供實時分析,公司需要一個現代技術基礎設施,包括這三點。

  一個實時數據源,如網絡點擊流、傳感器產生的物聯網事件等。

  一個平臺,如ApacheKafka/Confluent,Spark或AmazonKinesis用于發布該事件數據流。

  一個實時分析數據庫,能夠連續攝取大量的實時事件,并在幾毫秒內返回查詢結果。

  事件流/流處理已經存在了近十年。它已被充分理解。而實時分析則不然。實時分析數據庫的技術要求之一是可變性。可變性是一種超級能力,它能夠對數據存儲中的現有記錄進行更新或變異。

  可變和不可變數據之間的區別

  在我們談論為什么可變性是實時分析的關鍵之前,重要的是了解什么是可變性。

  可變數據是指存儲在表記錄中的數據,可以被擦除或用更新的數據來更新。例如,在一個雇員地址的數據庫中,假設每條記錄都有個人的姓名和他們當前的居住地址。如果雇員從一個地方搬到另一個地方,當前的地址信息將被覆蓋。

  傳統上,這些信息會被存儲在交易型數據庫中----。OracleDatabase,MySQL,PostgreSQL等--因為它們允許可變性。存儲在這些交易型數據庫中的任何字段都是可更新的。對于今天的實時分析,我們還有很多其他的原因需要可變性,包括數據的豐富性和回填數據。

  不可變的數據則相反--它不能被刪除或修改。更新不是寫在現有的記錄上,而是只做追加。這意味著更新被插入到不同的位置,或者你被迫重寫新舊數據以正確存儲它。稍后會有更多關于這個缺點的內容。不可變的數據存儲在某些分析場景中是很有用的。

  不變性的歷史作用

  數據倉庫普及了不變性,因為它減輕了可擴展性,特別是在分布式系統中。分析性查詢可以通過在RAM或SSD中緩存大量訪問的只讀數據來加速進行。如果緩存的數據是易變的,并且有可能發生變化,那么就必須不斷地與原始數據進行核對,以避免變得陳舊或錯誤。這將增加數據倉庫的操作復雜性;另一方面,不可變的數據則不會產生這樣的問題。

  不變性也減少了意外刪除數據的風險,這在某些用例中是一個重要的好處。以醫療保健和病人健康記錄為例。像新的醫療處方會被添加,而不是寫在現有的或過期的處方上,這樣你總是有一個完整的醫療記錄。

  最近,一些公司試圖將Kafka和Kinesis等流發布系統與用于分析的不可變的數據倉庫配對。這些事件系統捕獲物聯網和網絡事件,并將其存儲為日志文件。這些流式日志系統很難查詢,所以人們通常會將日志中的所有數據發送到一個不可變的數據系統,如ApacheDruid來執行批量分析。

  數據倉庫將把新流的事件附加到現有的表格中。由于過去的事件在理論上是不會改變的,因此不可更改地存儲數據似乎是一個正確的技術決定。雖然一個不可變的數據倉庫只能按順序寫入數據,但它確實支持隨機數據讀取。這使得分析性商業應用能夠有效地查詢數據,無論何時何地,它都被存儲起來。

  不變數據的問題

  當然,用戶很快發現,由于許多原因,數據確實需要更新。這對于事件流來說尤其如此,因為多個事件可以反映現實生活中物體的真實狀態。或者網絡問題或軟件崩潰會導致數據延遲交付。晚到的事件需要被重新加載或回填。

  公司也開始接受數據豐富化,將相關數據添加到現有表格中。最后,公司開始不得不刪除客戶數據,以履行消費者隱私法規,如GDPR和其"被遺忘的權利"。"

  不可變的數據庫制造商被迫創造變通方法,以便插入更新。一個流行的方法是由ApacheDruid和其他公司使用的一種流行方法被稱為寫時復制。數據倉庫通常將數據加載到一個暫存區域,然后再分批攝入數據倉庫,在那里進行存儲、索引并為查詢做好準備。如果有任何事件延遲到達,數據倉庫將不得不寫入新的數據,并將其保存在數據倉庫中。重寫臨近數據以便以正確的順序正確地存儲所有數據。

  在一個不可改變的數據系統中處理更新的另一個糟糕的解決方案是將原始數據保留在分區A(上面),并將晚到的數據寫入不同的位置,即分區B。應用程序,而不是數據系統,將不得不跟蹤所有鏈接但分散的記錄的存儲位置,以及任何由此產生的依賴關系。這個過程被稱為參考完整性,必須由應用軟件來實現。


  這兩種解決方法都有很大的問題。寫時復制要求數據倉庫花費大量的處理能力和時間--當更新很少的時候還可以忍受,但隨著更新數量的增加,成本和速度都是無法忍受的。這就造成了嚴重的數據延遲,可能排除了實時分析。數據工程師還必須手動監督寫入時的復制,以確保所有新舊數據被準確寫入和索引。

  實施參照完整性的應用程序有其自身的問題。查詢必須反復檢查他們是否從正確的位置提取數據,否則就有可能出現數據錯誤。當同一記錄的更新分散在數據系統的多個地方時,嘗試任何查詢優化,如緩存數據,也變得更加復雜。雖然這些在節奏較慢的批處理分析系統中可能是可以容忍的,但當涉及到關鍵任務的實時分析時,它們是巨大的問題。

  可變性有助于機器學習

  在Facebook,我們建立了一個ML模型,在所有新的日歷事件被創建時掃描它們,并將其存儲在事件數據庫中。然后,實時地,一個ML算法將檢查這個事件,并決定它是否是垃圾郵件。如果它被歸類為垃圾郵件,那么ML模型代碼將在現有的事件記錄中插入一個新字段,將其標記為垃圾郵件。因為有這么多的事件被標記并立即被刪除,為了提高效率和速度,數據必須是可變的。許多現代的ML服務系統都效仿我們的例子,選擇了可變的數據庫。


  這種水平的性能在不可改變的數據中是不可能的。一個使用寫時復制的數據庫將很快被它必須更新的標記事件的數量所拖累。如果數據庫將原始事件存儲在分區A,并將標記的事件附加到分區B,這將需要額外的查詢邏輯和處理能力,因為每個查詢都必須合并兩個分區的相關記錄。這兩種解決方法都會給我們的Facebook用戶帶來難以忍受的延遲,增加數據錯誤的風險,并給開發人員和/或數據工程師帶來更多的工作。


  可變性如何實現實時分析

  在Facebook,我幫助設計了可變的分析系統,提供實時的速度、效率和可靠性。

  我創立的技術之一是開源的RocksDB的高性能鍵值引擎,該引擎被MySQL、ApacheKafka和CockroachDB.RocksDB的數據格式是一種可變的數據格式,這意味著你可以更新、覆蓋或刪除一條記錄中的個別字段。它也是Rockset的嵌入式存儲引擎,Rockset是我創立的一個實時分析數據庫,具有完全可變的索引。

  通過調整開源的RocksDB,可以實現對事件和更新的SQL查詢,而這些事件和更新僅在幾秒鐘前到達。這些查詢可以在低至幾百毫秒的時間內返回,即使在復雜的、臨時的和高并發的情況下。RocksDB的壓縮算法還能自動合并舊的和更新的數據記錄,以確保查詢訪問最新的、正確的版本,并防止數據膨脹,以免妨礙存儲效率和查詢速度。

  通過選擇RocksDB,你可以避免不可改變的數據倉庫的笨拙、昂貴和產生錯誤的變通方法,如寫時復制和在不同分區中分散更新。

  總而言之,可變性是當今實時分析的關鍵,因為事件流可能是不完整的或失序的。當這種情況發生時,數據庫將需要糾正和回填丟失和錯誤的數據。為了確保高性能、低成本、無錯誤的查詢和開發人員的效率,你的數據庫必須支持可變性。?

熱詞搜索:大數據

上一篇:六個身份和訪問管理(IAM)策失敗的跡象以及如何解決
下一篇:最后一頁

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
毛片基地黄久久久久久天堂| 久久亚洲精品一区| 精品51国产黑色丝袜高跟鞋| 国内精品久久久久影院色 | 欧美在线视频免费观看| 牛人盗摄一区二区三区视频| 欧美午夜精品久久久久免费视 | 91久久久久久| 性欧美video另类hd性玩具| 欧美精品久久久久久久| 国产一区二区中文| 亚洲欧美999| 欧美日韩视频免费播放| 尤物网精品视频| 欧美一区2区视频在线观看| 欧美日韩精选| 亚洲国产精品va| 久久国产99| 国产欧美午夜| 欧美一区二区高清| 国产精品午夜久久| 亚洲免费中文| 国产精品久久久久久久久搜平片| 99国产精品久久久久久久| 欧美成人a∨高清免费观看| 精品成人一区二区| 久久久久久一区| 1769国内精品视频在线播放| 久久亚洲国产成人| 在线免费观看成人网| 美国成人直播| 亚洲国产女人aaa毛片在线| 免费看精品久久片| 亚洲片在线观看| 欧美激情第六页| 99在线精品视频| 欧美日韩久久精品| 亚洲免费一级电影| 国产一区二区高清| 久久亚洲欧美国产精品乐播| 尤物视频一区二区| 欧美日韩国产综合视频在线| 在线亚洲观看| 国产视频自拍一区| 免费观看久久久4p| 亚洲免费观看| 国产精品久久久久久五月尺| 午夜在线电影亚洲一区| 尤物yw午夜国产精品视频明星| 麻豆精品网站| 一区二区三区精品| 国产美女扒开尿口久久久| 久久久久在线观看| 日韩手机在线导航| 国产日韩精品一区二区浪潮av| 久久久久久久久久久一区| 亚洲成人在线视频网站| 欧美日韩一二三四五区| 久久久久久久97| 日韩天天综合| 国产亚洲午夜高清国产拍精品| 欧美高清日韩| 久久精品视频在线免费观看| 99精品热视频| 黄色成人av在线| 欧美性一区二区| 美女精品视频一区| 亚洲欧美在线网| 91久久久久久| 国产日韩欧美三区| 欧美日韩在线直播| 欧美成人午夜视频| 久久精品国产综合精品| 亚洲制服欧美中文字幕中文字幕| 亚洲高清视频中文字幕| 国产日韩1区| 欧美性大战久久久久| 蜜臀99久久精品久久久久久软件| 亚洲伊人第一页| 一本一本大道香蕉久在线精品| 在线看欧美日韩| 国产自产精品| 国产日韩精品电影| 国产精品视频精品视频| 欧美日韩一区三区| 欧美国产日韩亚洲一区| 久久久久综合网| 久久久久久久精| 欧美一区二区三区免费在线看| 亚洲性视频h| 亚洲一区二区黄| 一本一本a久久| 夜夜嗨av一区二区三区中文字幕| 亚洲人www| 亚洲国产精品一区在线观看不卡| 国产亚洲aⅴaaaaaa毛片| 国产精品永久入口久久久| 国产精品久久久久毛片软件 | 欧美日韩在线看| 欧美日韩成人精品| 欧美精品入口| 欧美视频成人| 国产精品羞羞答答xxdd| 国产精品一区二区男女羞羞无遮挡 | 欧美激情综合五月色丁香小说| 毛片基地黄久久久久久天堂| 久久久久女教师免费一区| 久久国产加勒比精品无码| 久久久久久久久久久久久久一区| 久久精品亚洲国产奇米99| 久久一区二区三区av| 美乳少妇欧美精品| 欧美日本国产| 国产精品香蕉在线观看| 国产在线一区二区三区四区| 在线观看久久av| 99精品视频免费| 午夜在线观看免费一区| 久久精品欧洲| 欧美美女视频| 国产区在线观看成人精品| 在线国产精品播放| 99在线|亚洲一区二区| 午夜精品剧场| 欧美成人精品福利| 国产精品萝li| 亚洲国产精品va在线看黑人动漫 | 一区二区三区日韩在线观看| 亚洲欧美www| 欧美1区3d| 国产精品理论片在线观看| 激情久久影院| 夜久久久久久| 久久夜色精品国产欧美乱极品 | 亚洲欧美视频在线观看视频| 久久国产一区二区| 欧美日韩精品一区二区在线播放 | 欧美母乳在线| 国产欧美精品va在线观看| 在线国产欧美| 亚洲欧美视频一区| 欧美成人精品福利| 国产日韩欧美综合| 一区二区欧美精品| 欧美不卡三区| 国产欧美在线观看一区| av成人毛片| 欧美国产日产韩国视频| 娇妻被交换粗又大又硬视频欧美| 亚洲一区在线免费观看| 欧美成人一品| 韩国成人精品a∨在线观看| 在线视频亚洲| 欧美激情一区二区三区在线| 韩国av一区二区| 欧美亚洲在线观看| 国产精品美女久久| 亚洲视频电影在线| 欧美日韩精品一区二区在线播放 | 欧美视频在线看| 在线观看精品视频| 久久嫩草精品久久久久| 国产精品一区二区三区久久 | 国产精品日韩| 99在线精品免费视频九九视| 欧美成人免费观看| 在线观看三级视频欧美| 久久蜜桃精品| 狠狠久久五月精品中文字幕| 欧美一区二区三区在线播放| 国产精品入口福利| 亚洲女人天堂成人av在线| 欧美视频免费在线观看| av成人免费观看| 国产精品久久久久婷婷| 亚洲一卡二卡三卡四卡五卡| 国产精品高清在线| 亚洲制服少妇| 国产欧美视频一区二区| 欧美一区二区三区四区在线观看| 国产精品揄拍一区二区| 欧美一区二区三区在线免费观看| 国产欧美一区二区白浆黑人| 亚洲欧美久久久| 国产无一区二区| 久久免费视频一区| 亚洲高清激情| 欧美精品一区二区在线观看| 一区二区三区成人精品| 国产精品日本精品| 久久久水蜜桃| 亚洲人线精品午夜| 国产精品国产三级国产aⅴ无密码| 亚洲一区在线看| 影音先锋国产精品| 欧美精品在欧美一区二区少妇| 宅男66日本亚洲欧美视频| 国产乱理伦片在线观看夜一区| 久久精品亚洲一区二区| 亚洲精品日韩在线|