數(shù)據(jù)是企業(yè)的一項重要資產(chǎn),這一點在業(yè)界已然達成共識,但是很多企業(yè)并沒有將數(shù)據(jù)的價值充分利用。福布斯調(diào)研報告顯示,如果企業(yè)轉(zhuǎn)型成為一家數(shù)據(jù)驅(qū)動型公司,那么在其收入增加20%的同時,成本會減少30%。實際上,越來越多的企業(yè)看到了數(shù)據(jù)驅(qū)動型組織突出的競爭力,正在通過業(yè)務(wù)產(chǎn)生的數(shù)據(jù)反向驅(qū)動企業(yè)戰(zhàn)略,通過融合大數(shù)據(jù)和機器學習能力提升業(yè)務(wù)產(chǎn)出,以充分發(fā)揮數(shù)據(jù)的價值。
IDC報告顯示,到2023年,AI系統(tǒng)支出將達到979億美元,與2019年相比增加2.5倍。據(jù)Gartner分析預測,到2024年,75%的企業(yè)將把機器學習技術(shù)真正用于生產(chǎn),為業(yè)務(wù)賦能。
在近日的媒體溝通會上,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示:“很多企業(yè)在業(yè)務(wù)創(chuàng)新中往往面臨一個困境,有大量的數(shù)據(jù)和分析技術(shù)儲備,也嘗試了很多先進的機器學習模型,但就是很難有實際的業(yè)務(wù)產(chǎn)出,究其原因,往往缺乏云上統(tǒng)一的數(shù)據(jù)基礎(chǔ)底座。”為此,亞馬遜云科技推出“云、數(shù)、智三位一體”的大數(shù)據(jù)與機器學習融合服務(wù)組合,幫助企業(yè)推進大數(shù)據(jù)和機器學習的融合,打通兩個領(lǐng)域的數(shù)據(jù)治理底層服務(wù),將機器學習由實驗轉(zhuǎn)為規(guī)模化落地實踐,為企業(yè)節(jié)本增效提供業(yè)務(wù)發(fā)展的新動力。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建
大數(shù)據(jù)和機器學習融合的趨勢與價值
從用戶邏輯來看,大數(shù)據(jù)和機器學習技術(shù)互相成就,大數(shù)據(jù)技術(shù)所提供的能力是機器學習建模的基礎(chǔ),而機器學習為大數(shù)據(jù)技術(shù)提供更高智能,為業(yè)務(wù)帶來更多價值。但是從技術(shù)發(fā)展的趨勢來看,這兩項技術(shù)走的卻是完全不同的路:大數(shù)據(jù)技術(shù)的側(cè)重點在于如何實現(xiàn)海量數(shù)據(jù)的采集、清洗和查詢等能力,但是機器學習更注重對算法本身的優(yōu)化。
在機器學習領(lǐng)域,算法工程師們津津樂道的是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)層數(shù)、超參數(shù)的優(yōu)化等等,他們往往對數(shù)據(jù)采集、處理和優(yōu)化不是非常看重。但是,一個算法最終能否產(chǎn)生好的效果,不光取決于算法結(jié)構(gòu)的調(diào)參,對數(shù)據(jù)質(zhì)量的優(yōu)化同樣重要。當然,在項目實施的過程中,僅依靠傳統(tǒng)的大數(shù)據(jù)技術(shù)無法全方位提供充足的數(shù)據(jù)見解,仍需要機器學習模型的能力補充,因此越來越多的數(shù)據(jù)項目要融合大數(shù)據(jù)和機器學習兩者的能力。
亞馬遜云科技大中華區(qū)產(chǎn)品部技術(shù)專家團隊總監(jiān)王曉野在演講中提到:“大數(shù)據(jù)與機器學習的融合代表著“智能湖倉”架構(gòu)的深度智能能力再升級。絕大多數(shù)機器學習項目的數(shù)據(jù)源受制于大數(shù)據(jù)平臺的數(shù)據(jù)提供能力,但是由于數(shù)據(jù)在企業(yè)中的發(fā)展階段不同,大數(shù)據(jù)團隊往往并不能向機器學習團隊提供有效的數(shù)據(jù)。”
結(jié)合當前的發(fā)展趨勢,亞馬遜云科技認為:企業(yè)要重塑數(shù)據(jù)洞察,一定是將數(shù)據(jù)(大數(shù)據(jù)技術(shù))和智能(機器學習技術(shù))進行融合和統(tǒng)一。這種融合帶來的價值顯而易見:既能更加高效地圍繞數(shù)據(jù)構(gòu)建和實施項目,使得數(shù)據(jù)在兩者之間無縫流轉(zhuǎn),又能讓成員快速具備相關(guān)能力,推動企業(yè)的數(shù)字化轉(zhuǎn)型邁向新的高度。
數(shù)據(jù)分析和機器學習融合的三大難題
陳曉建提到,數(shù)據(jù)分析和機器學習融合并非易事,必須解決三個問題:
第一:大數(shù)據(jù)和機器學習分而治之,數(shù)據(jù)及技術(shù)孤島制約敏捷迭代。例如車企數(shù)據(jù)產(chǎn)生于生產(chǎn)制造和行車兩個環(huán)節(jié),通常是由制造部門和運營部門分別負責,被存儲于不同的數(shù)據(jù)倉庫里。機器學習要從不同的業(yè)務(wù)部門拿到數(shù)據(jù),同時還要花費時間理解這些數(shù)據(jù)背后的定義、原因和算法,這往往是額外的負擔。
第二:數(shù)據(jù)處理能力不足,優(yōu)秀的算法要想發(fā)揮其真正價值,離不開大量業(yè)務(wù)數(shù)據(jù)的不斷迭代。而現(xiàn)實情況是,很多機器學習團隊不具備處理海量數(shù)據(jù)規(guī)模的能力,如果模型開發(fā)成功后,沒有海量的運營數(shù)據(jù)支撐,往往無法達到預期的業(yè)務(wù)目標。
第三:數(shù)據(jù)分析人員的參與度低。現(xiàn)實情況經(jīng)常是,模型在實驗環(huán)節(jié)效果良好,但在實際使用中卻不盡人意,因為實驗環(huán)境只是對真實環(huán)境的簡單模擬,而生產(chǎn)環(huán)境則要復雜得多。如果算法不給力,系統(tǒng)不給力,數(shù)據(jù)不健全,導致無法反復迭代,一定難以取得好的成效。
“云、數(shù)、智三位一體”的大數(shù)據(jù)和機器學習融合服務(wù)組合
為了幫助企業(yè)破解上述困境,亞馬遜云科技在其“智能湖倉”架構(gòu)的基礎(chǔ)之上推出 “云、數(shù)、智三位一體”的大數(shù)據(jù)和機器學習融合服務(wù)組合,通過在云中構(gòu)建統(tǒng)一的數(shù)據(jù)治理底座,提供數(shù)據(jù)分析服務(wù)保障機器學習的生產(chǎn)實踐,實現(xiàn)機器學習反向賦能智能化數(shù)據(jù)分析,促進云、數(shù)、智三者的統(tǒng)一與融合,幫助客戶推進機器學習項目的落地。
在云中打造統(tǒng)一的數(shù)據(jù)基礎(chǔ)底座
陳曉建強調(diào):“企業(yè)實現(xiàn)數(shù)智融合最有效的途徑是在云中打造統(tǒng)一的數(shù)據(jù)基礎(chǔ)底座,如數(shù)據(jù)質(zhì)量、數(shù)據(jù)權(quán)限、數(shù)據(jù)開發(fā)、數(shù)據(jù)工作流、可視化。在此基礎(chǔ)之上,大數(shù)據(jù)和機器學習應(yīng)該是高效充分的雙向循環(huán),雙劍合璧為企業(yè)發(fā)展提供創(chuàng)新引擎。”云中統(tǒng)一的數(shù)據(jù)治理底座不僅能提升大數(shù)據(jù)和機器學習的高效融合,還能減少重復構(gòu)建的工作,并且顯著降低成本。
亞馬遜云科技能幫助客戶構(gòu)建統(tǒng)一的數(shù)據(jù)治理底座,構(gòu)建三大核心能力:實現(xiàn)大數(shù)據(jù)和機器學習的數(shù)據(jù)共享,數(shù)據(jù)權(quán)限的統(tǒng)一管控,以及兩者統(tǒng)一的開發(fā)和流程編排。
一是統(tǒng)一數(shù)據(jù)共享:建立統(tǒng)一的數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)質(zhì)量的標準,能夠打破數(shù)據(jù)孤島,讓數(shù)據(jù)在不同系統(tǒng)間流動,實現(xiàn)數(shù)據(jù)的資產(chǎn)化;
二是統(tǒng)一權(quán)限管控:只有具備完善的細粒度的權(quán)限控制能力,才能放心的讓數(shù)據(jù)在不同的業(yè)務(wù)系統(tǒng)之間流轉(zhuǎn);
三是統(tǒng)一開發(fā)及流程編排:融合端到端的大數(shù)據(jù)和機器學習任務(wù),能夠提升整體的開發(fā)效率,確保數(shù)據(jù)從開始采集到算法落地更好地為業(yè)務(wù)所用。
Amazon Lake Formation作為“智能湖倉”架構(gòu)的核心功能,實現(xiàn)了數(shù)據(jù)網(wǎng)格跨部門的數(shù)據(jù)資產(chǎn)共享,以及基于單元格的最細粒度的權(quán)限控制機制,支持跨部門、跨地域,允許不同組織內(nèi)的機構(gòu)共享同一個元數(shù)據(jù),可讓智能營銷項目或新項目輕松地了解自身以及其他部門擁有哪些數(shù)據(jù)可以為已所用。
通過Amazon SageMaker Studio統(tǒng)一的開發(fā)界面,數(shù)據(jù)科學家或數(shù)據(jù)工程師可一站式地完成數(shù)據(jù)開發(fā)、模型開發(fā)及相關(guān)的生產(chǎn)任務(wù),該服務(wù)基于多種專門構(gòu)建的服務(wù),如交互式查詢服務(wù)Amazon Athena、云上大數(shù)據(jù)平臺Amazon Elastic MapReduce (Amazon EMR)、云數(shù)據(jù)倉庫服務(wù)Amazon Redshift、Amazon SageMaker等,為大數(shù)據(jù)和機器學習提供統(tǒng)一的開發(fā)平臺。
為機器學習提供生產(chǎn)級的數(shù)據(jù)處理能力
算法從實驗走向?qū)嵺`,打磨成生產(chǎn)級業(yè)務(wù)可用的算法,最關(guān)鍵的一步是具備海量的數(shù)據(jù)處理能力。為此,亞馬遜云科技提供多種靈活可擴展、專門構(gòu)建的大數(shù)據(jù)服務(wù),幫助客戶進行復雜的數(shù)據(jù)加工及處理,應(yīng)對數(shù)據(jù)規(guī)模的動態(tài)變化,優(yōu)化數(shù)據(jù)質(zhì)量。
陳曉建強調(diào):企業(yè)要想具備生產(chǎn)級的數(shù)據(jù)處理能力,一是通過底層大數(shù)據(jù)平臺的開放引擎解決數(shù)據(jù)的開放問題,能夠?qū)Χ嘣彤悩?gòu)的數(shù)據(jù)進行處理;二是靈活的平臺,也就是具備云的彈性能力,能夠根據(jù)業(yè)務(wù)負載對底層資源進行靈活的彈性伸縮;三是優(yōu)化數(shù)據(jù)質(zhì)量,通過采集、清洗、查詢等大數(shù)據(jù)技術(shù)能力,為機器學習提供高質(zhì)量的數(shù)據(jù)源。
據(jù)悉,Amazon Athena能夠?qū)χС侄喾N開源框架的大數(shù)據(jù)平臺(包括Amazon EMR、高性能關(guān)系數(shù)據(jù)庫Amazon Aurora、NoSQL數(shù)據(jù)庫服務(wù)Amazon DynamoDB、Amazon Redshift)等多種數(shù)據(jù)源進行聯(lián)邦查詢,快速完成機器學習建模的數(shù)據(jù)加工。而以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 為代表的無服務(wù)器分析能力,可以讓客戶無需配置、擴展或管理底層基礎(chǔ)設(shè)施,即可輕松地處理任何規(guī)模的數(shù)據(jù),為機器學習項目提供兼具性能和成本效益的特征數(shù)據(jù)準備。
讓數(shù)據(jù)分析智能化,賦能業(yè)務(wù)人員探索創(chuàng)新
通過智能數(shù)據(jù)分析,能夠進一步統(tǒng)一技術(shù)和業(yè)務(wù)的價值,讓研發(fā)和業(yè)務(wù)之間進行充分合作。AI機器學習能夠豐富智能分析場景,更好地發(fā)揮數(shù)據(jù)的價值。亞馬遜云科技不斷提供更加智能的數(shù)據(jù)分析服務(wù),賦能業(yè)務(wù)人員通過BI可視化工具方便地調(diào)用算法,并進一步檢驗算法效果;甚至讓業(yè)務(wù)人員根據(jù)自身需求通過數(shù)據(jù)自己訓練算法。
例如,在日常分析工具中集成機器學習模型預測能力,其中深度集成機器學習Amazon SageMaker模型預測能力的Amazon QuickSight 、在分析結(jié)果中添加基于模型預測的Amazon Athena ML,可幫助用戶使用熟悉的技術(shù),甚至通過自然語言來使用機器學習。亞馬遜云科技還提供如Amazon Redshift ML、可視數(shù)據(jù)準備工具Amazon Glue DataBrew、零代碼化的機器學習模型工具 Amazon SageMaker Canvas等服務(wù),讓業(yè)務(wù)人員探索機器學習建模。
王曉野提到:在全球追求數(shù)據(jù)驅(qū)動企業(yè)創(chuàng)新路徑的諸多企業(yè)中,寶馬集團是其中之一,它基于大數(shù)據(jù)和機器學習融合的共同底座,通過無服務(wù)器的大數(shù)據(jù)分析和機器學習靈活的擴展能力,讓業(yè)務(wù)人員實現(xiàn)自助式建模。寶馬集團的第一個項目通過Cloud Data Hub構(gòu)建門戶網(wǎng)站的形式,將元數(shù)據(jù)在網(wǎng)站中共享;與此同時利用亞馬遜云科技Amazon Alexa和Amazon Glue等無服務(wù)器的分析工具,為業(yè)務(wù)人員提供數(shù)據(jù)處理能力,探索業(yè)務(wù)創(chuàng)新。
在對成功的機器學習項目規(guī)模化復制的過程中,寶馬集團采用基礎(chǔ)架構(gòu)即代碼的方式,將一個成功的機器學習項目,從數(shù)據(jù)的預處理、加工清洗,到機器學習的模型訓練再到上線,完全通過代碼方式實現(xiàn)模板化,供之后的機器學習項目復用。值得一提的是,寶馬也在創(chuàng)新性的使用Amazon SageMaker Canvas以及Amazon SageMaker提供的自動機器學習能力,讓業(yè)務(wù)人員能夠自助式的從Cloud Data Hub上取得數(shù)據(jù),進行機器學習訓練。
最后,王曉野強調(diào):“機器學習和大數(shù)據(jù)的融合不是單純依靠技術(shù)就能解決的問題,‘授人以魚’不如‘授人以漁’,因此亞馬遜云科技通過面向快速算法原型的數(shù)據(jù)實驗室的應(yīng)用科學家、面向生產(chǎn)精度可用的模型訓練指導的機器學習解決方案實驗室,以及提供端到端咨詢及交付的專業(yè)服務(wù)團隊,通過這些不同分工的專家,和客戶肩并肩,幫助客戶探索機器學習與大數(shù)據(jù)融合時的挑戰(zhàn),共同學習優(yōu)秀企業(yè)在數(shù)據(jù)驅(qū)動轉(zhuǎn)型成功路上寶貴的經(jīng)驗。”