——諾貝爾醫(yī)學(xué)獎獲得者戴維·巴爾的摩(David Baltimore)
幾天前,隨著基因編輯嬰兒的誕生,代表人類進化史取得重大突破的同時,“潘多拉魔盒”的提前打開引發(fā)了巨大爭議。
在20世紀中葉,DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)開啟人們對于生命科學(xué)的熱情。也由此,DNA結(jié)構(gòu)與相對論、量子論并列成為20世紀的三大科學(xué)發(fā)現(xiàn)。在上世紀90年代展開的“人類基因組計劃”,與人們熟知的“阿波羅登月計劃”齊名,也被列為“20世紀三大科學(xué)計劃”之一。
歷經(jīng)十幾年的人類基因組計劃宣告完成,隨著人類的30億個堿基和數(shù)萬個基因序列被測定完,作為生命的密碼,基因不僅能決定生老病死,還能遺傳信息一代代傳遞下去。人與人之間基因組序列差異不到1%,而人類的外貌、性格和疾病等個體特征正是由這些基因的差異導(dǎo)致的。因此,“測定”與“解讀”基因成為了本世紀生命科學(xué)領(lǐng)域最熱門的一項研究。雖然“基因編輯”引發(fā)了有關(guān)倫理和“人類邊界”的爭論,但不可否兒的是,我們開始從最核心的層面探尋人的本質(zhì)與真相,并取得了跨越式的進步。
DNA測序,作為生命密碼的“讀取”手段,是目前生命科學(xué)和醫(yī)學(xué)應(yīng)用的領(lǐng)域中發(fā)展最快的技術(shù)。DNA的測序給人的健康生活和生育的意義已經(jīng)逐漸被越來越多的人認可,DNA測序還可以為個人或家庭提供生活建議和指導(dǎo),而這正是武漢未來組生物科技有限公司(下文簡稱“未來組”)所從事的領(lǐng)域。
解碼“生命”中的困惑與挑戰(zhàn)
作為生命科學(xué)領(lǐng)域中國首家第三代測序技術(shù)服務(wù)公司,未來組早在2013年便成功研發(fā)了基于PacBio第三代單分子實時測序平臺的生物信息分析方法,與2016年創(chuàng)建了Sequel基因組學(xué)中心,并在2017年9月建成了全世界最大的Oxford Nanopore測序中心,解決了動植物基因組、微生物基因組、全長轉(zhuǎn)錄組及微生物群體研究領(lǐng)域的技術(shù)瓶頸,推動了基因組學(xué)研究的升級換代。
隨著基因測序逐漸被越來越多的個人和家庭用戶所接受,并成為一種關(guān)注健康、提升生活品質(zhì)的流行手段。個人基因測序市場也進入到前所未有的繁榮時期,這讓未來組的業(yè)務(wù)在短短幾年中取得了飛速的發(fā)展和擴張。
然而,個人基因測序業(yè)務(wù)的蓬勃發(fā)展和大量科研的工作也讓未來組的IT設(shè)施面臨著巨大的挑戰(zhàn):
首先,人類DNA的序列長度達30億,如果將其轉(zhuǎn)化為文本,文件相應(yīng)的大小保守估計要達到3GB。如果考慮到必要的冗余因素,文件的體積要成倍擴大,這對于存儲的容量提出了極高要求。
其次,未來組已經(jīng)擁有兩臺第三代基因測序儀,未來這一數(shù)字將增長至五臺。基于現(xiàn)有的業(yè)務(wù)增長速率,這意味著僅在個人基因測序業(yè)務(wù)中,每天的數(shù)據(jù)產(chǎn)生量將高達300TB至600TB。
再次,未來組打造的“華夏萬人SV”計劃,針對不少于10萬個中國人個體,進行全基因組三代測序,彌補結(jié)構(gòu)變異和甲基化數(shù)據(jù)庫的空白,并對疾病群體進行分析,明確疾病相關(guān)的變異。而每樣本不少于360核小時,以100臺32C128G計算節(jié)點計算7*24滿負荷需470天,若用于組裝則每樣本不少于40000核小時。
綜上所述,這種規(guī)模的數(shù)據(jù)增長速度和巨大的計算量,是傳統(tǒng)的數(shù)據(jù)中心無法滿足的。
DNA數(shù)據(jù)的云中之旅
“上云是唯一的出路”。未來組IT中心總監(jiān)朱贏在接受采訪時說,未來組逐漸清晰地意識到了只有云計算才能夠應(yīng)對以上大數(shù)據(jù)帶來的種種挑戰(zhàn)。此后,經(jīng)過反復(fù)的調(diào)研和綜合考察,未來組選擇了華為云。
目前,未來組已經(jīng)與華為云構(gòu)建了HPC計算集群,并整合了三代測序數(shù)據(jù)分析流程,雙方合作打通了從測序儀到華為云存儲的數(shù)據(jù)傳輸通道,測序儀得到的基因組數(shù)據(jù)可以直接存儲在華為云上,KunLun超大內(nèi)存裸金屬服務(wù)器也在基因測序領(lǐng)域得以應(yīng)用。
在雙方探索基因測序數(shù)據(jù)云端存儲方法的過程中,“華為云提供了非常完善的技術(shù)支持服務(wù)。華為云極強的資源拓展能力,大規(guī)模的基因測序工作不會再受到存儲系統(tǒng)容量的限制。”朱贏說。華為云技術(shù)和服務(wù)支持給未來組帶來了震撼,也讓未來組與華為之間快速建立起了合作和信任關(guān)系。
據(jù)筆者了解,目前,雙方正在更多的領(lǐng)域展開聯(lián)合的創(chuàng)新和探索:在“華夏萬人SV”的基因測序計劃中,由于樣本數(shù)量達到了空前的一萬個。通過使用華為提供的100臺32核心高性能服務(wù)器進行72小時滿負荷測試,整個DNA片段重組完成全部計算工作從之前的400萬核小時提升到4萬個核小時,效率提升100倍。
此外,未來組還在積極嘗試利用華為昆侖小型機產(chǎn)品所具備的海量內(nèi)存來提升DNA片段重組計算任務(wù)的運行效率。
“未來,未來組還會嘗試使用華為云所提供的異構(gòu)計算服務(wù)來加速DNA片段重組的計算工作,并結(jié)合容器技術(shù)來進一步提升效率。基于華為云,未來組還將開發(fā)一套面向基因測序分析報告的移動APP,讓用戶可以更方便、更快速的調(diào)取基因測序結(jié)果,獲得更好的用戶體驗。“朱贏對筆者說。
“云”上的數(shù)據(jù)存儲、基因測序、交付分析結(jié)果,未來組已經(jīng)向目標邁出了堅實的一步。而華為云給未來組所帶來的,不僅是效率的提升和成本的下降,是又一個技術(shù)推動行業(yè)夢想的鮮活案例,如華為輪值董事長胡厚崑所言,華為要給智世界鋪上云的跑道,幫助每個人、每個家庭、每個組織更快、更好、更安全地擁抱智能世界。今后,基因檢測或許就能像量體溫、測體重一樣簡單容易,也許在未來不遠,人類能夠找出生命的出路,基因藍圖事業(yè)在云上騰飛。