Cloudera大中華區技術總監 劉隸放
人工智能(AI)正逐步成為重塑企業運營方式的強大力量。IDC預測,由于數據平臺在數據存儲、標準化和訪問方面的采用率的增加,超過 50% 的中國企業將準備好使用GenAI來處理數據 。根據Cloudera的一項研究預測,美國有超過三分之一(36%)的企業正處于探索AI應用潛力的早期階段。然而,盡管AI的普及程度日益提升,一些企業仍在其應用中面臨挑戰。問題的癥結在于AI和各類分析技術都基于數據,而這些數據往往零散且相互孤立,導致很多企業難以訪問并從各個環境中收集數據,進而投喂給AI使用。所以,企業想要從AI中獲取業務洞察和價值會變得更加困難。面對分布式數據基礎設施、治理、不斷變化的安全環境等方面的特殊挑戰,企業想要實現AI的全面、快速應用,亟需獲得專業的支持。
為了滿足客戶在數據、AI和分析方面的需求,我們發布了新一代開放式數據湖倉一體架構,加入了多項增強功能,專為快速擴展企業AI應用和創造更多業務價值而構建。目前,Cloudera為云和本地提供帶有Apache Iceberg的開放式數據湖倉一體架構。這標志著平臺發展的一座重要里程碑:IDC的數據顯示,目前全球企業管理的生產數據中約有一半部署在本地。新一代Cloudera平臺憑借強大的功能,為數據中心帶來與云端完全相同的開放式數據湖倉一體架構功能。對于高度敏感但又至關重要的公司數據,該平臺可解決其在管理上的復雜性,同時還能從這些數據中提煉出更大價值。
以下是本次更新中最具影響力的三個功能:
Apache Iceberg
在增加了對Apache Iceberg的功能支持之后,Cloudera能夠支持企業將關鍵任務數據投喂給AI,以優化一些容易出錯的流程,從而生成新的用例、提高整體性能和降低成本。借助Iceberg提供的開放表格式,企業可以在本地環境中使用AI處理數據。該方法使企業能夠使用新的計算引擎,并且增加了Spark、Flink、Impala和NiFi,實現了在Iceberg中對數據集的并發訪問和處理。
憑借時間旅行、模式演進、數據發現簡化等內置功能,Iceberg使數據團隊能夠在保持數據完整性的同時加強對數據湖的管理。由于企業需要實現合規并遵守《中華人民共和國數據安全法》等政策,因此數據湖倉一體架構上的就地模式演進和ACID事務等功能對他們至關重要。無論是在數據中心還是在云端,功能強大的平臺數據安全和治理層Shared Data Experience(SDX) 都是開放式數據湖倉一體架構的基本組成部分。
Apache Ozone
隨著AI和其他先進分析技術的規模日益擴大,性能和可擴展的數據存儲也需要隨之提升。Apache Ozone專門用于數據中心,更低的成本提供了更加強大的擴展能力,幫助企業創造更大的業務價值。通過此次更新,Cloudera為客戶提供了增強安全性和加強企業就緒性所需的新功能。我們的新一代平臺加入了復制改進、卷配額改進、促進云原生架構的存儲桶(Bucket)、快照等Ozone功能,而且現在還支持存儲桶(Bucket)和卷級別的數據存儲。
免停機升級(Zero Downtime Upgrades)
除了Iceberg和Ozone的各項改進之外,該平臺現已推出免停機升級(ZDU)功能,為企業提供了一種更加便捷的升級方式?,F在,HDFS、Hive、HBase、Kudu、Kafka、Ranger、YARN和Ranger KMS均支持滾動升級。ZDU盡可能減少了對客戶工作流程的影響,以減少甚至避免漫長且昂貴的停機。
通過添加ZDU,客戶將獲得單段升級和大型集群自動升級等功能,從而更大程度提高生產力。對于預計仍會出現停機的平臺組件,此次更新將通過Cloudera Manager優化,并快速重啟這些組件。在以前的升級換代中,Queue Manager等一些服務往往最先停機并最后重啟?,F在,這些服務在ZDU啟動后幾分鐘內就能恢復運行。
對于想要從數據中提煉出更大業務價值的企業,AI已逐漸成為必不可少的工具。企業需要在適合數據和分析的環境中運行,這不僅是實現混合數據策略的關鍵,也是Cloudera的獨特之處。Cloudera平臺提供了可移植云原生分析功能,能夠部署在一切基礎設施,同時保持數據治理和安全的一致性,并且適用于云和數據中心。