嘉賓介紹:陳尚義,百度技術(shù)委員會理事長,國家科技重大專項03專項總體組專家,中國電子學(xué)會常務(wù)理事,云計算發(fā)展與政策論壇副理事長,云技術(shù)與產(chǎn)業(yè)聯(lián)盟常務(wù)理事。兼任北京航空航天大學(xué)教授、合肥工業(yè)大學(xué)教授、中科院研究生院碩士生導(dǎo)師,IEEE-CS授權(quán)培訓(xùn)機構(gòu)高級講師。
>
財經(jīng)網(wǎng):大數(shù)據(jù)的概念,其實不是單純這三個字的字面組合,它是完全全新一個大數(shù)據(jù)的定義,您是怎么來理解大數(shù)據(jù)的?
陳尚義:像你剛才說的一樣,大數(shù)據(jù)現(xiàn)在已經(jīng)引起了工業(yè)界和學(xué)術(shù)界高度重視,有人試圖給它下一個定義。但是從我們的工作實踐來講,我個人的體會,大數(shù)據(jù)應(yīng)該具備幾個非常關(guān)鍵的要素才可以稱為“大數(shù)據(jù)”。第一,毫無疑問,它必須要大,要有一定的規(guī)模,但是(究竟多達(dá)規(guī)模才稱得上大)業(yè)界對這一點沒有共同的認(rèn)識;第二,它的復(fù)雜性。復(fù)雜性就意味著結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的大量并存,而且更多的是非結(jié)構(gòu)化的數(shù)據(jù);第三,它的動態(tài)變化性,也是構(gòu)成大數(shù)據(jù)的必要要素,動態(tài)變化性表現(xiàn)在數(shù)據(jù)的持續(xù)變化。還有一個,業(yè)界普遍認(rèn)為價值稀疏的問題,就像沙子一樣,里頭有很少量的金,大數(shù)據(jù)里頭真正有價值的數(shù)據(jù)確實是不多的。這就是構(gòu)成大數(shù)據(jù)全部四個要素。我們也認(rèn)同這四個要素,但是作為搜索引擎公司,我們的數(shù)據(jù)規(guī)模應(yīng)該是業(yè)界最大的,數(shù)據(jù)變化、復(fù)雜性、價值的稀疏性等等,這四個要素我們都全部具備。除了這個之外,其實百度的數(shù)據(jù)還有更多的特點,業(yè)務(wù)對它的要求更多、更嚴(yán)格,包括對它的一致性要求等等,使得我們的數(shù)據(jù)比傳統(tǒng)意義上的大數(shù)據(jù)還要復(fù)雜。
財經(jīng)網(wǎng):為什么說百度的數(shù)據(jù)更復(fù)雜,具體復(fù)雜在哪?
陳尚義:首先對數(shù)據(jù)處理的時效性要求非常高,比如像新聞搜索、新詞學(xué)習(xí),這些功能的推出,早了不行,比如新詞的學(xué)習(xí),早了它沒有這個詞。大家都用這個詞的時候,這個詞才變成了熱詞,比如說我在搜索框里面輸入最近發(fā)生的一些熱門的事件,早了這個事件沒有發(fā)生,這個新的詞我不會提示你;晚了也不行,如果說這個時間拖得太久了的話,那個詞已經(jīng)不再熱了,就是說對數(shù)據(jù)處理的時效要求很高。
第二,一致性要求。面對大量的數(shù)據(jù),有些一致性要求極高,有些一致性要求不那么高。比方說百度因為有做推廣服務(wù),客戶的數(shù)據(jù),那里頭就是一些錢的數(shù)據(jù),這個要求是一致性極高的。另外有些數(shù)據(jù),比方說搜索,在搜索結(jié)果里頭,有些(次要的)內(nèi)容沒有完全出來,這樣用戶也是能夠接受的,所以從這里講,數(shù)據(jù)的一致性要求不是那么強,所以,形成了數(shù)據(jù)一致性要求的強弱反差,有的很高,有的不高。所有這些因素使得百度的數(shù)據(jù),跟傳統(tǒng)意義上或者大家目前討論的大數(shù)據(jù)相比,百度的數(shù)據(jù)更復(fù)雜,這還不包括百度數(shù)據(jù)的規(guī)模是罕見的。
財經(jīng)網(wǎng):海量的。
陳尚義:是海量的,是比傳統(tǒng)行業(yè),甚至比互聯(lián)網(wǎng)行業(yè)的其他企業(yè)數(shù)據(jù)規(guī)模還大。
財經(jīng)網(wǎng):但是海量的另一面其實也是我們可發(fā)掘的內(nèi)容就更多,這其實也是一個雙面的東西。
陳尚義:對。數(shù)據(jù)小了就沒什么價值了,數(shù)據(jù)越大,發(fā)現(xiàn)價值的可能性就越多。
財經(jīng)網(wǎng):大數(shù)據(jù)究竟為我們的行業(yè)帶來的怎樣的變化和影響?
陳尚義:大數(shù)據(jù)對技術(shù)或產(chǎn)業(yè)帶來了很多的變革。首先它對技術(shù)方面的變革,它直接拉動了數(shù)據(jù)中心規(guī)模不斷的增長。過去的數(shù)據(jù)量小,數(shù)據(jù)中心的規(guī)模也小,現(xiàn)在大數(shù)據(jù)年代,數(shù)據(jù)的中心規(guī)模會越來越大。它表面上表現(xiàn)的是大,其實不僅是大,背后蘊藏了很多技術(shù)的變革,比方說出于成本的考慮,數(shù)據(jù)中心越大,希望它能節(jié)能降耗,希望服務(wù)器的密度越高越好,希望服務(wù)器的部署的速度越快越好,所有的這些技術(shù)都在不斷的挑戰(zhàn)新的極限,創(chuàng)造一個又一個新的突破,這是大數(shù)據(jù)所帶來的必然結(jié)果。同時,大數(shù)據(jù)對我們的學(xué)術(shù)研究,或者是技術(shù)的開發(fā)也帶來了一些新的變革。過去在學(xué)術(shù)研究方面,我們在技術(shù)領(lǐng)域里面,更多的是依靠模型的方法,現(xiàn)在有大量的數(shù)據(jù),我們可以借用這個數(shù)據(jù),基于統(tǒng)計的方法,比如說語音識別、機器翻譯這樣的領(lǐng)域里面,可以更加容易的突破傳統(tǒng)技術(shù)所存在的困難,在大數(shù)據(jù)年代有望取得新的進(jìn)展。
同時,大數(shù)據(jù)年代,大數(shù)據(jù)對商業(yè)模式也產(chǎn)生了影響。大數(shù)據(jù)年代,數(shù)據(jù)的擁有方,就是運營商,它具有大量的用戶行為習(xí)慣的各種數(shù)據(jù),開發(fā)者他了解用戶的需求,他有開發(fā)能力,在大數(shù)據(jù)年代,運營商和開發(fā)者互利共贏的模式,已經(jīng)取得了一定的共識。可以說大數(shù)據(jù)對社會生活、經(jīng)濟(jì)、技術(shù)全方位形成影響。
財經(jīng)網(wǎng):剛才您也提到了大數(shù)據(jù)現(xiàn)在在百度也是有了很多的應(yīng)用,其實我們也知道奧巴馬的團(tuán)隊也是在拉選票的過程中也是應(yīng)用很多大數(shù)據(jù)方面的成果,對于這個大數(shù)據(jù)應(yīng)用的廣泛性已經(jīng)是很受認(rèn)可了,就您所了解的,包括可能在咱們企業(yè)之中,或者企業(yè)之外的,您覺得現(xiàn)在大數(shù)據(jù)已經(jīng)應(yīng)用到了什么樣的程度,或者是普及到了什么樣的程度?
陳尚義:程度不好說,但我更想說的是大數(shù)據(jù)同其他任何事物一樣,它本身是中性的,看誰在利用,就產(chǎn)生什么樣的效果。大選的時候,他就利用大數(shù)據(jù)做對大選有所幫助的事情。在其他領(lǐng)域里面,比如在交通、能源這些領(lǐng)域,對大數(shù)據(jù)的利用,可以使交通變得更加智能,我早上一出門就規(guī)劃出行路線,或者以節(jié)省時間為目的,或者以節(jié)省能源為目的。
我還聽說過一個例子,一家能源公司擁有豐富的資料,這些資料是以圖紙的形式存在的,他們要找石油或者是礦藏,通過對這些數(shù)據(jù)的加工整理和分析利用,應(yīng)能準(zhǔn)確地找到礦藏的所在地、油井的所在地,公司內(nèi)部產(chǎn)生很劇烈的反應(yīng),有人說自己能利用大數(shù)據(jù),自己發(fā)現(xiàn)這個金礦、油礦,屬于我自己開采的。另外有人說你自己處理不了,應(yīng)該交給社會上去做。這個例子說明大數(shù)據(jù)促成了一種開放的心態(tài),讓全社會來參與。
有的用來找油、有的用來規(guī)劃路線,有的為了提高生活質(zhì)量、生活品質(zhì),有些人用作大選,還有些人用來做一些不正當(dāng)?shù)男袨?。比如說可以通過你留下的各種各樣的用戶行為的數(shù)據(jù),發(fā)現(xiàn)你運動的軌跡,然后推測你是一個什么樣的人,你是什么樣的背景,你有什么樣的愛好,你家庭背景怎么樣,這樣就很容易造成個人隱私的泄露,大數(shù)據(jù)的利用看你怎么去用,可以從提高整生活品質(zhì),提高經(jīng)濟(jì)效率的目的出發(fā)來利用大數(shù)據(jù),反過來也可以被一些不正當(dāng)?shù)氖侄嗡谩?/p>
財經(jīng)網(wǎng):其實現(xiàn)在大數(shù)據(jù)已經(jīng)成為一個概念性的東西,行業(yè)的廣度已經(jīng)覆蓋到了一定程度,因為它不局限在企業(yè)本身應(yīng)用,它可以應(yīng)用到各個行業(yè)和領(lǐng)域。
陳尚義:因為大數(shù)據(jù)是必然的,過去我們受制于存儲能力、計算能力還有人們采集數(shù)據(jù)的能力,各種各樣的能力限制,所以我們沒有辦法用大數(shù)據(jù),像過去我們對數(shù)據(jù)進(jìn)行人工錄入,錄入的數(shù)據(jù)是經(jīng)過好幾道處理的數(shù)據(jù),之后進(jìn)去的都是精華的數(shù)據(jù)了,所以用傳統(tǒng)的數(shù)據(jù)庫就能夠存儲起來了,這是數(shù)據(jù)很小量的一部分,其實實際上有很多大量的數(shù)據(jù),圖片、音頻、視頻的材料,還有各種各樣的圖紙,比方說醫(yī)院里頭的各種各樣的膠片,隨著設(shè)備的廉價和設(shè)備的先進(jìn)性提高,還有傳輸?shù)乃俣忍岣?、存儲的能力提升,以及包括存儲的成本降低等因素,都促成了大?shù)據(jù)時代的到來。大家都知道,每18個月存儲性能提高一倍,同時成本降低一半,所以這種趨勢是非常明顯,大數(shù)據(jù)鋪天蓋地而來,它不限于IT企業(yè),也不限于企業(yè)內(nèi)部,各行各業(yè)都是一樣的,全社會都是一樣的。
財經(jīng)網(wǎng):剛才您也談到了對于產(chǎn)品本身的應(yīng)用,比如說搜索上,其他的領(lǐng)域有沒有一些拓展?
陳尚義:我們也分析行業(yè)的趨勢發(fā)展,然后形成發(fā)展報告,供我們的客戶,甚至供全社會免費下載使用,比如我們一直在發(fā)布一個報告《移動互聯(lián)網(wǎng)趨勢發(fā)展報告》,這是根據(jù)我們后臺的數(shù)據(jù)統(tǒng)計,形成的一個報告,給移動互聯(lián)網(wǎng)年代的開發(fā)者去參考,比如說哪款手機現(xiàn)在正在流行,哪種操作系統(tǒng)現(xiàn)在占比例多大等等。#p#副標(biāo)題#e#
財經(jīng)網(wǎng):目前我們有沒有應(yīng)用大數(shù)據(jù)來挖掘一些可以創(chuàng)新的點,或者是一些盈利的點,因為前一段時間也有一些新聞來報道,現(xiàn)在京東也在運用大數(shù)據(jù)的基礎(chǔ)上,它開始做客戶的信貸之類這樣一些業(yè)務(wù),它是發(fā)掘出來一些新的盈利點,或者是一些創(chuàng)新的點,這方面百度目前有沒有做,或者是說未來會不會做?
陳尚義:百度現(xiàn)在是以搜索為主營業(yè)務(wù)的公司,我們一直在很專注地做一件事情,那就是持續(xù)不斷地提高用戶體驗,用戶的搜索體驗。去年我們也推出了百度的個人首頁,個人首頁是什么意思呢?就是說你不用搜索,就能夠得到你想要的結(jié)果,用我們的話講叫“不搜即得”。就是在搜索框里面,你還沒有輸入,就得到想要的結(jié)果,就是不搜即得,因為百度知道了你過去對什么東西感興趣,從后臺的一些數(shù)據(jù)記錄和日志里頭知道,通過挖掘分析這些數(shù)據(jù)知道用戶對什么樣的東西感興趣,然后實行了自動的推送。
財經(jīng)網(wǎng):推薦算法
陳尚義:對,推薦算法。這是我們在大數(shù)據(jù)利用方面很好的一個例子。另外一個例子,我們在機器翻譯和語音識別上面,我們也利用了大數(shù)據(jù)的基礎(chǔ),通過統(tǒng)計的方法,不斷的提高翻譯的準(zhǔn)確率,不斷的提高語音的識別準(zhǔn)確率,這個也給用戶帶來新的體驗?,F(xiàn)在大家都說,尤其在移動互聯(lián)網(wǎng)手機這個年代,由于它鍵盤輸入的限制,通過語音這樣跟它交流起來可能更加容易,這個方面我們的成果應(yīng)該達(dá)到了業(yè)界最先進(jìn)的水平,翻譯和識別的準(zhǔn)確率都達(dá)到了業(yè)界最先進(jìn)的水平。
財經(jīng)網(wǎng):您剛才談到的主要是用戶體驗的方面,對于百度這樣的搜索企業(yè)來說,大數(shù)據(jù)它的價值,您覺得最大的價值是在用戶體驗這方面嗎?
陳尚義:用戶體驗是最主要的方面,包括我們說推廣外界說是廣告,我們這個專業(yè)術(shù)語叫搜索推廣,或者是搜索營銷,我們的客戶在我們的搜索結(jié)果里頭發(fā)現(xiàn)推廣信息,這個推廣信息,要是做到好的話,用戶是喜歡的,而不是討厭這些廣告,這一點也依靠大數(shù)據(jù),就是要提高廣告或是搜索推廣跟搜索內(nèi)容的相關(guān)性,這個背后是大數(shù)據(jù)的技術(shù),就是要不斷學(xué)習(xí)用戶的興趣點在什么地方,不斷地學(xué)習(xí)你這次搜索與什么廣告相關(guān),如果真正做到這一點,用戶不僅不反感廣告,而且是喜歡的。這點來講,也可以說是用戶的搜索體驗,同時也是提高百度收入的一個方法。
財經(jīng)網(wǎng):也是相輔相成的。
陳尚義:對,相輔相成的。我們只有不斷的提高搜索體驗,我們才能夠取得相應(yīng)的經(jīng)濟(jì)回報。
財經(jīng)網(wǎng):剛才您也談到了很多百度在大數(shù)據(jù)的挖掘和應(yīng)用,在您的切身感受之中,在挖掘的過程中,或者是應(yīng)用的過程中,都遇到了哪些問題,對您印象比較深刻的?
陳尚義:我們在不斷地應(yīng)對這種大數(shù)據(jù)帶來的挑戰(zhàn),其中的第一個挑戰(zhàn)就是存儲,做搜索引擎的公司,要把全網(wǎng)的數(shù)據(jù) “爬”過來,存到我們的數(shù)據(jù)中心里頭,這個工作不僅是單純地給它存起來,而且有很強的時間要求,你要不斷的更新。要是更新不快,我們提供的搜索結(jié)果就是過時的,用戶也不高興,這個體驗不好。我們要在非常有限的時間里頭把這些數(shù)據(jù)爬過來,存起來,要更新,這是我們不斷遇到的挑戰(zhàn)。相對應(yīng)的就是我們的存儲體系也要不斷更新,或者是不斷的創(chuàng)新,才能夠滿足剛才我講的,數(shù)據(jù)量大和快速更新的挑戰(zhàn)。實際上我們公司從成立以來,不斷的受到這種挑戰(zhàn),很多東西業(yè)界沒有給你參考的,也無法給你提供參考,更無法給你提供經(jīng)驗和教訓(xùn),因為別人沒有遇到過這種架勢。
財經(jīng)網(wǎng):第一個吃螃蟹的人。
陳尚義:對,因為互聯(lián)網(wǎng)公司在不斷接受一些新的挑戰(zhàn),因為同樣的互聯(lián)網(wǎng)兄弟公司,比如像Google可能有類似的經(jīng)驗和技術(shù),但是它絕對不會告訴你,所以從這一點講,百度應(yīng)該在大數(shù)據(jù)的各個方面,存儲處理,還有加以利用各個方面,應(yīng)該是說具有國際競爭力的核心技術(shù)。
財經(jīng)網(wǎng):因為現(xiàn)在已經(jīng)出現(xiàn)了一些專業(yè)的做大數(shù)據(jù)分析這樣的一些公司,或者是說咨詢公司,但實際上在握有數(shù)據(jù)的主體的,他其實考慮到數(shù)據(jù)的私密性,可能會并不是特別愿意跟這樣的專業(yè)分析公司來合作,您覺得這樣合作的前景,它會有一個比較好的前景嗎?
陳尚義:隨著這個產(chǎn)業(yè)不斷的發(fā)展壯大,分工的精細(xì)化是一個必然的趨勢。剛才你說的那些問題可能是在發(fā)展之中都會得到解決的問題。
財經(jīng)網(wǎng):但是您說數(shù)據(jù)的私密性,所以說未來可能還是會打破這個壁壘,會有一個全面合作的格局是嗎?
陳尚義:我是這么看,因為這種分工的精細(xì)化肯定是一個趨勢,至于說隱私問題,還有商業(yè)機密的問題,這個可以通過很多種渠道去解決,比如說這個行業(yè)越來越規(guī)范,國家出臺一些相應(yīng)的保護(hù)措施等等。
財經(jīng)網(wǎng):剛才您也是談到了大數(shù)據(jù)對于一些技術(shù)上的革新和變化,會帶來一些給人非常好的變化。隨著大數(shù)據(jù)時代的到來,一些握有大數(shù)據(jù)的這樣一些公司,或者說這樣的產(chǎn)業(yè),在未來,在它的比如說產(chǎn)業(yè)鏈或者是產(chǎn)業(yè)分工的格局上,會有怎么樣的變化?
陳尚義:這個問題過去也跟一些業(yè)內(nèi)人士探討過,人家問我是不是像您百度這樣的企業(yè),握有大數(shù)據(jù),會不會很霸道,話語權(quán)是不是很大。其實我覺得不是這樣的。擁有大數(shù)據(jù)的企業(yè),它在數(shù)據(jù)的處理能力方面,肯定有先天的優(yōu)勢,但是在現(xiàn)在移動互聯(lián)網(wǎng),特別是云計算,或者是移動云計算的年代,用戶的要求是豐富多彩的,大家都說現(xiàn)在是應(yīng)用為王的年代,而應(yīng)用是豐富多彩的。作為一家企業(yè),哪怕你是百度這樣巨大的企業(yè),也滿足不了所有用戶的要求,只有貼近社會、貼近用戶這樣的一些中小開發(fā)者,甚至是一些個體的開發(fā)者,他們才能了解用戶的需求,開發(fā)出豐富多彩的、很多、很小的應(yīng)用,有些是你大公司想不到的。在這種情況下,百度跟開發(fā)者之間其實在大數(shù)據(jù)上也有很好的結(jié)合點。比如說一個小的開發(fā)者在開發(fā)他的應(yīng)用,他如果調(diào)用了百度的這種大數(shù)據(jù)的處理能力,比如說地圖的API,我們大家都知道百度地圖,包括定位這個技術(shù)已經(jīng)做的非常好的,用戶也非常多,我們把這個技術(shù)開放給開發(fā)者,哪怕他是一個個體的開發(fā)者,他實際上站在百度的肩膀上,他開發(fā)那個小的應(yīng)用也具有定位的能力,用百度地圖的這種能力,這樣實際上他站在百度的肩膀上,使他開發(fā)的應(yīng)用功能更強大,更好地滿足用戶的需求,像這樣的地方其實還有很多,包括百度的翻譯,包括百度很多的大數(shù)據(jù)處理能力、統(tǒng)計分析報告,他都可以去用。這樣建立一種互補的關(guān)系,一種合作的關(guān)系。實際上我可以這樣講,擁有大數(shù)據(jù)的企業(yè),它對整個產(chǎn)業(yè)鏈的拉動應(yīng)該發(fā)揮了更大的作用。
財經(jīng)網(wǎng):但是還是會有一些合作的模式會發(fā)生一些變化?
陳尚義:合作的模式會發(fā)生一些變化。過去,不是在大數(shù)據(jù)能力基礎(chǔ)之上給這些中小企業(yè)開發(fā)者提供這種服務(wù),而是大企業(yè)利用大數(shù)據(jù)給自己的業(yè)務(wù)服務(wù)?,F(xiàn)在大家都講開放,實際上我剛才講一點,不知道你有沒有留心,大數(shù)據(jù)這個年代實際上是促進(jìn)了開放,為什么這樣講?因為首先握有大數(shù)據(jù)的這種企業(yè),由于它的業(yè)務(wù),專注的業(yè)務(wù)方面所受限制,大數(shù)據(jù)的很多價值它沒有利用起來,這是一個。另外,我講了,在應(yīng)用開發(fā)方面,應(yīng)用大數(shù)據(jù),你滿足用戶的多姿多彩的需求,你必須跟開發(fā)者進(jìn)行合作。剛才我還講一個例子,那個找石油的企業(yè),他們內(nèi)部這種數(shù)據(jù)的處理和發(fā)掘問題的能力,由于受到這個限制,所以它很久都沒有根據(jù)大數(shù)據(jù)找到他所需要的礦藏資源,它對全社會開放了,利用全社會的力量去找,很快就能達(dá)到它的目的,實現(xiàn)了多方的共贏,促進(jìn)了合作的方式。
財經(jīng)網(wǎng):開放也是有風(fēng)險的。
陳尚義:當(dāng)然。什么事情都是有它的兩面性。
財經(jīng)網(wǎng):您剛才談到的開放這一面,可能它的另一點很重要的,就是如何掌控這樣的隨時而來的風(fēng)險?
陳尚義:目前,我們也嘗試做一些開放。比如我們的開放研究計劃,就是把我們的數(shù)據(jù)交給研究者、學(xué)者去研究,在這個開放過程中,我們其實也積累了一定的經(jīng)驗,有一些提前的規(guī)劃,比如說我們對用戶開放數(shù)據(jù),我們不能暴露用戶的注冊信息,這個我們開放之前我們是一定要經(jīng)過處理的,為了保護(hù)用戶的隱私,在初始的時候,不可避免的可能有用戶ID的信息,還有一些其他的信息,這些要經(jīng)過清洗,還有跟開發(fā)者、研究者簽署協(xié)議,這些風(fēng)險都可以依靠安全措施得到解決的。
財經(jīng)網(wǎng):謝謝您。
/>


