一、外部數據使用歷史
1、外部數據的定義
外部數據指為滿足業務發展從本行外部獲取的支持客戶營銷、風險管控、管理決策、產品創新、運營優化以及監管合規的數據、分析報告及資訊信息等,包括但不限于采購、合作等方式獲取的數據。常見的外部數據的主要類型有工商、海關、環保、公安等政府數據,移動、聯通、電信等運營商數據,以及萬德、大智慧等一些數據公司的數據。
2015年之前,建行各業務條線已經開始在業務層面上使用外部數據,2015年后,建行成立中心后,開始更多地利用外部數據進行數據挖掘,做機器學習建模。
2、外部數據管理模式
2017年我行數據管理部進一步建設外部數據管理組件,采用全行集中統籌的管理模型管理外部數據。主要有三大特點:
- 一是集中管理,總行對外部數據的需求、預算、采購、費用執行、數據接入和數據共享應用全流程統一管理。
- 二是分行自主,分行區域性外部數據給予分行一定自主權,允許自行采購和費用執行。
- 三是充分共享,所有外部數據(包括區域性外部數據)統一接入外部數據管理組件,全行共享。
3、外部數據引入和應用模式
目前我行外部數據的接入和應用模式分別有三種。接入的三種模式分別為互聯網、網絡專線以及本地化部署到數倉中。外部數據應用的三種方式包括,第一種是實時聯機查詢,是當前主流的應用方式,即外部數據管理組件發布外部數據服務,業務組件在取得授權的情況下,實時調用服務,基本都是嵌入業務流程或者模型中伴隨業務辦理調用。第二種是批量數據傳輸,一般適用于批量的一些企業公開數據,根據下游業務組件用數需求,通過數據倉庫按照制定頻率推送或者增量數據表。第三種是平臺自助查詢,主要面向業務人員,業務人員登錄外部數據管理平臺,可通過平臺查詢整合后的企業公開數據。
4、外部數據嵌入信用卡業務全流程中
自2015年后,外部數據在大數據領域被大量應用,在我行多個業務條線、多個產品及多個場景均發揮巨大作用。以信用卡業務為例,外部數據被應用到信用卡生命周期的六個環節中:預審批、客戶識別、偽冒欺詐、審批、交叉銷售、風險預警。我們利用外部數據產出大量的規則或模型,包括申請反欺詐、交易反欺詐、交叉銷售、提升銷售模型等,這些規則或模型被廣泛應用到客戶的全生命周期管理中。
5、聯合建模-數據融合應用
前面提到的這種外部數據的應用,更多的是單筆或者是批量的明文數據的查詢或者去做一些規則或做一些判斷,并沒有進行復雜的融合雙方數據的學習建模。自 19 年開始,我們中心開始和外界進行大量的聯合建模。聯合建模是銀行通過機器學習建模方式引入外部數據、探索新產品、新場景應用的重要方式,通過與政府機構、公共事業、運營商、頭部電商等可信外部數據源進行聯合數據探索和數據挖掘,確保雙方數據安全、開展模型研發,創新數據價值變現的一種外部數據應用新模式。
聯合建模主要有兩種方式,第一種方式,我行提供樣本,首先對 ID 去進行加密,加工標簽以及部分x變量,然后由我行的聯合建模人員攜帶數據到對方提供的一臺沙盒環境進行建模,對方也會把他們的數據加載到這個沙盒環境中。第二種方式是對方來我們的環境進行建模,一般是集團內較多。最早在2019年,我行與京東、人社部做過兩次聯合建模,與京東的合作是我們帶著建行的標簽以及部分x變量到京東的環境,利用京東提供的客戶消費支付、信貸行為等等數據,構建了一個針對潛在客戶的融信商務模型,通過這個模型對小微企業組、個體工商戶、年輕客群還有大眾客群去進行信用評估。與人社部合作的模型主要是依靠人社部提供的企業、個人的社保繳費信息等數據,做社保評信用評分整體解決方案,解決方案里面包括客戶準入模型,預警規則模型,測額模型等等。總體來說聯合建模為我行創造了較大的數據價值和業務價值。
6、2022聯合建模整體情況
以2022 年為例,盡管經歷了上海封控,我們依然借助于聯合建模技術,產出了大量業務成果。我們支持總行的普惠部、數字化工廠,鄉村金融部、個人金融部等多個業務部門以及浙江分行、湖北分行等相關分行,開展聯合建模項目,共研發5個普惠金融模型,后續均投產使用。我們的合作方包括像銀聯、美團等一些頭部企業,還有像地方金融局,地方的數據服務平臺等單位。其中我們跟銀聯合作研發的商戶云貸-銀聯版模型是去年4月23號上線的,截止到去年的11月末,授信客戶數達到近21萬戶,授信金額超過800億元,貸款余額近500億。另外我們支持鄉村金融戶做的裕農快貸=農戶商戶貸模型和支持浙江分行做的浙信云代產品模型,均在去年四季度上線投入使用,總體碩果累累。
二、隱私計算早期探索(2020-2021)
1、隱私計算技術應用背景
2020年國家戰略發展要求和企業自身的發展需求促成了隱私計算技術的出現。隱私計算為建行主要帶來了三點好處。
第一點隱私計算是一個創新機制,實現數據不動價值動,該方式實際幫助建行提高了數據處理的安全性。因為聯合建模過程中,明文數據要出域,因此數據在行內經歷相對比較繁瑣的審批過程,通過隱私計算避免這種事情發生,有助于提高我們數據處理的安全性。
第二點是聯合數據應用遵循最小必要價值,避免過度使用個人信息,隱私計算通過對算子和數據的管控,有助于實現該內容。
第三點是可以避免合作方的數據濫用,可以限定合作方對算子和數據的調用,避免合作方超出授權或者未經授權去使用我行的數據。
2、早期探索(建行-建信基金)
2019年開始,我們內部開始嘗試部署FATE框架,并內部選用一些樣例數據進行測試。在2020年,因發展需要,建行與建信基金子公司通過隱私計算,實現雙方數據融通。總行和基金子公司各部署的一臺FATE計算節點,并且利用總行跟子公司之間的核心網專線,打通雙方的聯通性關系。建行利用8億多客戶的1萬多個標簽,基金子公司利用500多個特征標簽,我們對雙方的數據進行求交,求交后構建模型。因受當時的網絡專線影響,共構建5個貨幣類基金的精準營銷模型,包含高凈值、臨界、流失、休眠、長尾 5 個客群的secureboost模型。一般來說在建行單邊模型,可能選用500棵甚至上千棵樹來建模,考慮計算節點配置比較弱,雙方的專線帶寬不是很大,選用的15-30顆樹進行建模。為了進行AB test,我們分別構建建行單測數據模型和聯邦學習模型,并對比模型效果。從技術層面上看,AUC、KS、top 5%的lift聯邦學習模型明顯優于建行單測模型。從業務層面上看,聯邦學習模型的前 5% 客戶的客戶響應率7.35%明顯優于建行單測模型5.47%。該案例對我們具有重大意義,真正實現總行第一個端到端的打通的聯邦學習,從理論到實踐的路徑。為未來我行與集團內更多子公司,以及更多的外部公司去開展基于隱私計算的數據合作,積累了寶貴的實踐經驗。
三、隱私計算需求井噴(2022-2023)
1、中心隱私計算框架部署
2022年,在FATE框架的基礎上,我們引入了新的框架,包括多方安全計算框架(MPC)。之前的FATE只能做聯邦學習,有了MPC后,我們不僅可以做聯邦建模,還可以聯合統計分析、匿名查詢、聯合計算等等。這些新技術支撐了更多的業務場景應用外部數據。
2、隱私計算業務場景
2022年后,建信基金提出了更多隱私計算新需求,內部的合作單位也增加了很多,有建信人壽、建信信托、建信養老、建信財險等公司,外部也有很多合作公司,包括美團、銀聯、網聯、移動、電信等。合作中共有四大類場景,第一類是聯邦建模,第二類是安全求交,第三類是匿蹤查詢,第四種是安全計算。
在 2022 年我們幫助建信基金建立針對非貨幣類基金的精準營銷模型,他們希望把更多的客戶從購買貨幣基金轉變為購買非貨基金,因為非貨基金相對基金公司可能獲取的經濟效益更大,這次主要用到安全求交和聯邦建模。
我們幫助建行人壽建立代理人存量客戶精準營銷模型,同樣應用了安全求交和聯邦建模等技術,主要是把行內的一些高凈值客戶通過求交方式傳遞到建行人壽。
建信信托是期望借助匿蹤查詢技術來查詢客戶在行內的評級分布。
去年年底國家推出個人養老金業務,總行與建信養老通過安全求交的辦法獲取養老一側的一些客戶,然后借助于行內的精準營銷平臺,對客戶去進行精準營銷,促成客戶在我行辦理養老金業務。
美團是我們持續合作的單位,最早是總行普惠部提的需求,希望借助于美團數據,融合雙方數據進行聯邦建模,然后向美團的商戶進行快貸授信,所以我們做了多個模型,包括準入模型以及額度模型。今年我們跟美團的合作主要是精準營銷層面,對快捷支付客戶促活、激活的場景進行聯邦建模。
另外我們與很多外部公司,包括建行的子公司、支付機構、運營商、一些互聯網公司和頭部平臺等單位都在持續合作中,開展的業務場景非常多,包括反賭反詐、精準營銷、精準風控等。
四、企業級隱私計算平臺搭建
1、建行企業級隱私計算平臺建設
2022年我們搭建了隱私計算場景平臺,它并不是一套企業級的平臺,存在三點問題:
- 第一個問題是性能比較差,只有幾臺物理機,對大數據量的隱私計算支持比較差。
- 第二個問題是這套平臺目前只有研發環境,沒有生產環境,并沒有跟我們行的調度平臺,以及單筆服務的發布功能進行對接,只能通過手工觸發去進行建模或預測。
- 第三個問題是平臺中的部分流程,包括數據安全中客戶隱私授權、需求項目模型管理等功能,更多依靠手工操作,相對比較粗放。
所以我們今年期望通過搭建企業級的平臺,補充上述不足。建設目標是通過打造企業級的隱私計算平臺,或者稱為數據共享安全計算平臺,實現我們與外界數據可用不可見,開發更多的業務場景,激活數據價值,助力數字化業務發展。建設范圍是在保護各方隱私的前提下,去實現聯合查詢、聯合運算、聯合建模等多種核心功能,支持不同機構間的數據隱私共享及不同金融場景的應用建模。我們最后也希望按照平臺化、場景化、標準化、生態化的思路,進行技術研究、平臺建設、場景落地。
2、隱私計算平臺設計原則
隱私計算平臺的設計原則有四點內容:
- 第一點是企業級架構為基礎。全面整合聯邦學習、多方安全計算等技術路線,支持聯合查詢、聯合計算、聯合建模、存證審計等豐富功能,支持建行集團內外部各機構快速部署,便捷使用。
- 第二點是價值創造為目標。在打造平臺的同時,通過積極探索新的業務模式來擴展外部數據連接,解決數據供給側和需求側匹配的問題,推動建設機構間數據交易網絡與數據共享生態,促進數據有效融通,實現業務價值。
- 第三點是滿足監管合規要求:遵守《數據安全法》、《網絡安全法》、《個人信息保護法》等法律法規,遵照上級金融監管單位的監管要求,確保業務合法合規,實現高等級數據安全。
- 第四點是基于隱私計算和密碼學底層算法,在確保“數據不出域”的前提下,實現數據“可用不可見”,充分發掘跨機構數據在銀行風控營銷、監管等場景的價值。
3、隱私計算平臺設計架構
下圖是我行隱私計算平臺的整體應用架構,最底層的數據層,接入行業的各種數據源,包括內部、外部的一些數據源。算法層支持各類框架,支持各類計算范式,包括查詢、運算、建模等等。服務層接入到行里面的模型管理平臺、數據管理平臺等。應用層支持各種應用,包括精準畫像、精準獲客、審批授信、智能風控等。
4、建行集團隱私計算創新和榮譽
這里主要介紹在過去幾年我們中心以及總行申請獲得的一些榮譽,以及一些專利申請情況和一些課題。我們中心最早在 2020 年,就與建信基金合作,獲得了信通院的“星河案例”獎。
5、建行集團隱私計算未來發展方向
建行集團隱私計算的未來發展方向包括以下幾方面:
一是加速落地更多數據融合應用賦能金融業務場景,加速探索行內外更多數據融合應用場景,賦能風控、營銷等常見業務場景,以實現數據與金融業務場景的安全有效融合。
二是加強生態合作,與生態合作伙伴一起,共同推進如互聯互通等行業生態建設。
三是持續技術投入和創新研究,依托建行量子實驗室等前沿技術研究機構,持續在隱私計算領域投入技術研究力量。參與相關課題研究、標準制定、專利研發等,探索具備抗惡意攻擊、抗合謀攻擊、抗量子攻擊的隱私計算算法。
以上就是本次分享的內容,謝謝大家。