国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

2024 年數據工程:對數據湖和服務層的預測
2024-01-31   51CTO

(MeSSrro/Shutterstock)

數據湖預測

從 Hadoop 繼續前進: 2023 年,DuckDB (C++)、Polars (Rust) 和 Apache Arrow (Go、Rust、Javascript 等)等工具變得非常流行,將 JVM 和 C/Python 在分析領域的完全主導地位出現裂縫。

 

我們預測,JVM之外的創新步伐將會加快,這將現有的基于Hadoop的架構送入傳統抽屜當中。

 

雖然大多數公司已經沒有直接使用Hadoop,但目前的大部分技術仍然建立在Hadoop的腳本之上:Apache Spark完全依賴Hadoop的I/O實現來訪問其底層數據。許多湖倉一體架構要么基于 Apache Hive 樣式,要么更直接地基于 Hive 元存儲及其接口,以在其存儲層之上創建表格抽象。

 

雖然Hadoop和Hive本身并沒有問題,但它們已經不再代表最先進的技術。這次,它們完全基于JVM。JVM現在的性能令人難以置信,當然如果想從沒有變得更快的CPU中獲得絕對最好的選擇,這仍然不太可能。

 

此外,Apache Hive通過抽象出Hadoop的底層分布式特性,并在分布式文件系統之上暴露熟悉的SQL(-ish)表抽象,這標志著大數據處理向前邁出了一大步。由此可以看到,它已經開始顯示年齡和局限性:缺乏事務性和并發性控制,缺乏元數據和數據之間的分離。 以及我們在 15+ 年中學到的其他經驗教訓。

 

今年,我們將看到 Apache Spark 從根源上繼續前進:Databricks 已經有一個無 JVM 的 Apache Spark (Photon) 實現,而新的表格式(如 Apache Iceberg)也通過實現表目錄的開放規范,以及為 I/O 層提供更現代的方法,并從集體 Hive 根源中走出來。

 

元商店之戰

隨著 Hive 即成為過去,以及 Delta Lake 和 Iceberg 等 Open Table 格式變得無處不在,任何數據架構中的核心組件也正在被取代——“元存儲”。對象存儲或文件系統上的文件與它們所表示的表格和實體之間的間接層。雖然表格格式是開放的,但它們的元存儲似乎越來越專有和鎖定。

 

Databricks 正在積極推動用戶使用其 Unity Catalog,AWS 擁有 Glue,Snowflake 也有自己的目錄實現。這些是不可互操作的,并且在許多方面成為希望利用新表格格式提供開放性的用戶鎖定供應商的一種手段。我們預測,在某個時候,鐘擺會擺回去——因為用戶將朝著更高的標準化和靈活性方向發展。

 

大數據工程作為一種實踐將走向成熟

隨著分析和數據工程變得越來越普遍,大量的技術正在快速增長,最佳實踐也開始出現。

 

2023 年,我們看到促進結構化開發-測試-發布數據工程方法的工具變得更加主流。DBT非常受歡迎和成熟。從Great Expectations、Monte Carlo和其他質量和可觀測性平臺等工具的成功來看,可觀測性和監控現在也被視為不僅僅是錦上添花。lakeFS 提倡對數據本身進行版本控制,以允許類似 git 的分支和合并,從而構建健壯的、可重復的開發-測試-發布管道。

 

此外,我們現在還看到,從Snowflake和Databricks到初創公司,每個人都在推廣數據網格和數據產品等模式,以填補圍繞這些模式仍然存在的工具空白。

 

因此,我們將在 2024 年看到旨在幫助用戶實現這些目標的工具激增。從以數據為中心的監控和日志記錄到測試工具和更好的 CI/CD 選項,軟件工程實踐還有很多工作要做,現在是縮小這些差距的正確時機。

 

服務層預測

云原生應用程序將把更大份額的狀態轉移到對象存儲中: 2023 年底,AWS 宣布了自 2006 年成立以來最大的功能之一,即其核心存儲服務 S3。

 

該功能“S3 Express One-Zone”允許用戶使用與 S3 提供的相同*標準對象存儲 API,但訪問數據的延遲始終如一的堅持個位數毫秒,成本大約是 API 調用的一半。

 

這標志著一個巨大的變化。到目前為止,對象存儲的用例有些狹窄:雖然它們允許存儲幾乎無限量的數據,但即使您只想讀取少量數據,您也必須接受更長的訪問時間。

 

這種權衡顯然使它們在分析和大數據處理中非常受歡迎。因為在這些領域,延遲通常不如整體吞吐量重要,但這意味著數據庫、HPC 和面向用戶的應用程序等低延遲系統不能真正依賴它們作為其關鍵路徑的一部分。

 

如果他們使用了對象存儲,則通常采用存檔或備份存儲層的形式。如果想要快速訪問,則必須選擇以某種形式附加到實例的塊存儲設備,并放棄對象存儲提供的可擴展性和持久性優勢。我們相信 S3 Express One-Zone 是改變這種狀況的第一步。

 

S3 是新的磁盤驅動器,通過一致、低延遲的讀取,現在理論上可以構建完全不依賴塊存儲的完全對象存儲支持的數據庫。

 

我們預測,在2024年,我們將看到更多的可操作數據庫開始在實踐中采用這一概念:允許數據庫在完全短暫的計算環境中運行,完全依靠對象存儲來實現持久性。

(圖片來源:Oz Katz)

 

業務數據庫將開始分解

考慮到前面的預測,我們可以將這種方法更進一步:如果我們像標準化 OLAP 一樣標準化 OLTP 的存儲層會怎樣?

 

數據湖的最大承諾之一是能夠將存儲和計算分開,以便一種技術寫入的數據可以被另一種技術讀取。這使開發人員可以自由選擇最適合其用例的最佳堆棧。但是,有了 Apache Parquet、Delta Lake 和 Apache Iceberg 等技術,現在這是可行的。

 

如果我們設法將用于操作數據訪問的格式標準化,會怎么樣?讓我們想象一個鍵/值抽象(可能類似于 LSM sstables?),它允許存儲排序的鍵值對,為對象存儲進行最佳布局。

 

我們可以部署一個無狀態的RDBMS,在上面提供查詢解析/規劃/執行功能,甚至作為一個按需的lambda函數。另一個系統可能會使用相同的存儲抽象來存儲用于搜索的反排索引,或者用于存儲酷炫的生成式 AI 應用程序的向量相似性索引。

 

雖然不相信一年后我們會將所有數據庫作為 lambda 函數運行,但確實將看到從“對象存儲作為存檔層”到更多“對象存儲作為記錄系統”的轉變,在操作數據庫中也會發生。

(圖片來源:Oz Katz)

 

最后的思考

樂觀地認為,2024 年將繼續朝著正確的方向發展數據格局:更好的抽象、改進堆棧不同部分之間的接口,以及技術發展的新功能。

 

雖然它們并不總是完美的,以犧牲易用性會以較低的靈活性為代價。但是,在過去二十年中,看到這個生態系統的發展,我認為我們的狀況比以往任何時候都好。

 

我們比以往任何時候都有更多的選擇、更好的協議和工具,以及更低的進入門檻。

文章標題:Data Engineering in 2024: Predictions For Data Lakes and The Serving Layer

文章作者:Oz Katz

熱詞搜索:數據

上一篇:科技運營數據管理實踐
下一篇:最后一頁

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
91精品国产综合久久精品性色| 国产成人av一区| 亚洲男人的天堂av| 国产麻豆精品在线| 欧美一级欧美一级在线播放| 亚洲一级二级在线| 色综合久久久久综合| 中文字幕不卡的av| 成人黄色软件下载| 亚洲色图一区二区| 成人激情动漫在线观看| 在线精品视频小说1| 一区二区三区四区中文字幕| 成人综合婷婷国产精品久久免费| 亚洲精品一区二区三区四区高清| 蜜桃视频第一区免费观看| 91精品福利在线一区二区三区| 美女性感视频久久| 国产婷婷色一区二区三区四区| 国产成人精品三级| 亚洲三级视频在线观看| 欧美一区二区三区四区久久| 亚洲国产cao| 色综合久久99| 亚洲欧洲成人av每日更新| 成人动漫精品一区二区| 中国色在线观看另类| 久久 天天综合| 777久久久精品| 麻豆成人综合网| 亚洲国产精品激情在线观看| 亚洲男人的天堂网| 国产丶欧美丶日本不卡视频| 宅男噜噜噜66一区二区66| 免费观看在线色综合| 2024国产精品| 99精品视频在线观看| 天堂成人免费av电影一区| 精品999在线播放| 99国产一区二区三精品乱码| 亚洲精品视频自拍| 日韩美女视频一区二区在线观看| 成人激情动漫在线观看| 亚洲图片自拍偷拍| 亚洲国产经典视频| 欧美区视频在线观看| 国产麻豆视频一区二区| 一区二区三区中文字幕精品精品| 欧美r级在线观看| 国产在线乱码一区二区三区| 一区二区三区久久| 国产农村妇女精品| 欧美一区永久视频免费观看| 91麻豆视频网站| 国产一区二区伦理片| 天堂影院一区二区| 夜夜爽夜夜爽精品视频| 26uuu精品一区二区| 久久精品一区二区| 91精品黄色片免费大全| 日本不卡一区二区三区| 日韩精品一区在线观看| 欧美高清在线精品一区| 精品乱人伦一区二区三区| 在线欧美小视频| 成人性色生活片| 欧美日韩精品免费| 国产一区二区91| 久久99蜜桃精品| 成人三级在线视频| 欧美日韩国产一级二级| 日韩精品一区二区三区视频 | 午夜伦理一区二区| 亚洲色图清纯唯美| 中文字幕av一区 二区| 26uuu久久天堂性欧美| 国产精品全国免费观看高清| 国产亚洲欧美日韩日本| 久久久久久一二三区| 亚洲国产成人自拍| 国产精品五月天| 中文字幕av一区 二区| 亚洲第一狼人社区| 美国一区二区三区在线播放| 国产毛片精品视频| www.性欧美| 91美女视频网站| 3d动漫精品啪啪| 精品三级在线看| 欧美激情在线免费观看| 国产精品国产三级国产专播品爱网| 国产精品国产三级国产aⅴ中文| 国产精品久久久久aaaa樱花 | 欧美一级欧美一级在线播放| 日韩一区二区三区观看| 久久这里只有精品首页| 亚洲国产精品激情在线观看| 国产精品你懂的在线欣赏| 国产农村妇女精品| 亚洲精品中文字幕在线观看| 中文字幕av资源一区| 亚洲欧洲精品一区二区精品久久久| 欧美在线观看一二区| 日韩一级二级三级精品视频| 国产精品网曝门| 亚洲国产精品一区二区www在线| 日本特黄久久久高潮| 国内久久婷婷综合| 免费在线观看成人| 欧美在线看片a免费观看| 91蜜桃免费观看视频| 91高清视频免费看| 日韩欧美国产综合| 久久综合av免费| 亚洲视频每日更新| 亚洲国产综合在线| 麻豆国产精品777777在线| 国产成人自拍在线| 51精品视频一区二区三区| 日本一区二区在线不卡| 亚洲第一成人在线| 粗大黑人巨茎大战欧美成人| 8v天堂国产在线一区二区| 国产精品日日摸夜夜摸av| 91精品国产一区二区| 一本大道久久a久久综合| 欧美日韩一区二区三区视频| 欧美成人精品3d动漫h| 国产精品久久久久9999吃药| 亚洲成a人v欧美综合天堂下载| 国产精品99久久久久久似苏梦涵| 欧美中文字幕一区| 亚洲欧洲日韩综合一区二区| 国产真实乱偷精品视频免| 欧美日本一道本在线视频| 日韩欧美另类在线| 国产午夜精品久久久久久免费视| 日韩有码一区二区三区| 日本高清无吗v一区| 国产精品三级av在线播放| 国产一区二区三区免费| 日韩欧美一级在线播放| 亚洲夂夂婷婷色拍ww47| 色婷婷av一区二区三区gif| 91麻豆精品国产91久久久使用方法| 欧美性videosxxxxx| 日韩高清在线观看| 95精品视频在线| 国产喷白浆一区二区三区| 国产一区二区导航在线播放| 日韩精品在线网站| 91麻豆文化传媒在线观看| 国产亚洲综合色| 波多野结衣在线一区| 亚洲视频免费看| 欧美中文字幕一二三区视频| 日本色综合中文字幕| 久久嫩草精品久久久久| 99久久婷婷国产精品综合| 亚洲午夜久久久久中文字幕久| 91精品国模一区二区三区| 国产精品一区二区视频| 一区二区三区av电影| 2023国产一二三区日本精品2022| av一本久道久久综合久久鬼色| 日本在线不卡视频| 日av在线不卡| 国产三级久久久| 欧美精品日韩一本| 国产不卡视频一区二区三区| 亚洲与欧洲av电影| 欧美激情一区二区三区四区| 欧美亚洲国产一区在线观看网站| 国产一区二区三区美女| 亚洲高清免费在线| 欧美韩国一区二区| 欧美一级爆毛片| 欧美伊人久久大香线蕉综合69| 国产麻豆精品视频| 午夜久久久久久久久| 国产精品福利一区| 久久一夜天堂av一区二区三区| 在线观看三级视频欧美| 国产69精品久久777的优势| 奇米四色…亚洲| 亚洲一区二区三区在线| 国产精品天天摸av网| 精品入口麻豆88视频| 欧美日韩国产片| 91黄色免费观看| 91美女在线看| 99麻豆久久久国产精品免费优播| 狠狠色丁香久久婷婷综| 日韩国产高清影视| 亚洲理论在线观看| 中文字幕亚洲一区二区av在线| 久久久不卡网国产精品一区| 欧美大黄免费观看| 欧美一卡2卡三卡4卡5免费| 欧美久久久久中文字幕|