今年初,美國總統(tǒng)奧巴馬宣布以2 億美元投資大數(shù)據領域,美國政府將數(shù)據定義為“未來的新石油”。
從各種各樣類型的數(shù)據中,快速獲得有價值信息的能力,就是大數(shù)據技術。掌握這一技術已經成為一種新的競爭優(yōu)勢,一類新的經濟資產。之于商業(yè),它就如企業(yè)巨輪遠航的一片藍海,而它又不只是企業(yè)的“專利”;之于政府,應用好大數(shù)據,是構建高效服務型政府的關鍵。
“統(tǒng)計學在最近幾年發(fā)展非常快,今后也將更多地應用于社會的各個領域,大數(shù)據時代即將來臨。”胡善慶告訴《支點》記者。目前在美國喬治華盛頓大學擔任客座教授的胡善慶,曾于2004 年到2012 年間擔任美國統(tǒng)計局和商務部的高級顧問。
小時候跟隨父母移民美國的胡善慶,對于統(tǒng)計學有著天生愛好。在喬治華盛頓大學取得數(shù)理統(tǒng)計學博士學位后,他便進入美國政府部門工作。2000年,他被任命為能源部首任國家申訴專員,此前還曾擔任聯(lián)邦農業(yè)部民權司副司長,負責管理信息科技以及申訴等事務。如今,身為著名統(tǒng)計學家的胡善慶,同時也是美國“百人會”調研委員會主席。
作為一個快速成長的經濟大國,中國的統(tǒng)計數(shù)字也日益受到重視,并對世界具有重大影響力。“我是希望能有機會到中國多走走,增長見識。興趣所在是利用學歷經驗,為社團學術界提供扶助創(chuàng)新機會。”胡善慶說,中國有非常廣闊的大數(shù)據應用市場。
以下,是《支點》記者與胡善慶博士的對話。
傳統(tǒng)數(shù)據統(tǒng)計模式的終結
《支點》:如今在數(shù)據大爆炸時代,傳統(tǒng)的統(tǒng)計方法存在哪些局限性?
胡善慶:上個世紀,各國人口和經濟的測量與推論主要采用的是傳統(tǒng)的普查以及隨機抽樣調查的方式,這兩種數(shù)據統(tǒng)計方法對各國政策制定和信息傳遞都是非常重要的。
但就普查而言,雖然過去許多世紀都證明了它的重要性,不過它確實存在一些眾所周知的實際弱點。因為,人類活動是連續(xù)和動態(tài)的,但普查只能為一個指定的普查日子或短暫時期提供一個比較全面的速映,更多的時間被花費在數(shù)據處理、分析及報告結果上。通常普查結果在被宣布時,它們已經過時了。
在中國進行人口調查,其復雜程度難以想象。抽樣數(shù)據的獲得需要同31個省市區(qū)、4800個村莊、4420個鎮(zhèn)區(qū)和2133個城區(qū)中的150萬人面談才行。
同時,大部分國家,甚至發(fā)達國家,都面對嚴格的財政預算限制。現(xiàn)在的高費用、低回收的普查和調查辦法否定了它們新引進或擴張一貫做法的可能性。全球普查和調查反應率下降亦把問題搞得復雜。比如,在美國,盡管多方計劃和努力,其2010年的普查參與率僅僅達到2000 年的74%。到了個人面談的地步,普查平均費用升到每戶56 美元,超過最初的郵寄費用的100 倍。
在數(shù)據大爆炸時代,國家統(tǒng)計局面對的真實挑戰(zhàn)是令人畏懼的,20 世紀的統(tǒng)計系統(tǒng)不能滿足21世紀的需求。應用政府統(tǒng)計的網民正在快速地在數(shù)字和廣度方面增加。他們需要更廣泛、更動態(tài)、更及時的數(shù)據,并能容易地存取和了解,但現(xiàn)有方法必需的資源和時間都不可得或不能負擔。
《支點》:與之前相比,21世紀的統(tǒng)計系統(tǒng)發(fā)生了怎樣的變化?“大數(shù)據”對政府工作和企業(yè)生產帶來了哪些改變?
胡善慶:根據南加州大學的一項研究,世界電子儲藏數(shù)量在2002 年第一次超越了非電子儲藏數(shù)量。在2007 年,地球上至少94% 的所有資訊都以電子形式儲藏。于是,數(shù)據可以沒有抽取樣品的需要或考慮,可將其完整地電子化直接輸入機器處理和計算。
電子儲藏的快速發(fā)展也帶來了21 世紀統(tǒng)計系統(tǒng)和方法的改變,縱向數(shù)據的研究成為可能。所謂縱向數(shù)據,是對同一單位( 例如一個工人、一位學生、一個家庭、一門生意、一所學校或一座醫(yī)院) 在時間上重復觀察所得的數(shù)據。它能在個體水平提供獨特的底線和變化計量。
大數(shù)據是一個有關非常大量電子數(shù)據的新用詞,它很可能不是根據傳統(tǒng)統(tǒng)計系統(tǒng)的結構和概率原則而進行收集的。行政記錄、社會媒體、條碼和電波掃描儀、運輸感應器、能源和環(huán)境監(jiān)視器、在線交易、流影像和人造衛(wèi)星圖像,這些都是大數(shù)據來源和爆發(fā)生長的因素。
私營企業(yè)在生產大數(shù)據已領先起步,組合政府的統(tǒng)計,發(fā)展數(shù)據挖掘技術和方法來識別潛在的消費者、擴張市場、測試新產品、并抽取新訊息以作其他市場及客戶研究。有些情況下,他們甚至可向傳統(tǒng)的政府功能挑戰(zhàn)。例如,一些社會媒體搜索的言詞被用來做感冒的指標,它的表現(xiàn)不比公共衛(wèi)生機關的指標差,在及時方面也更勝一籌。
盡管政府統(tǒng)計在大數(shù)據汪洋中的分量逐漸減少,但它仍然擁有其支持全球化的經濟體制及解決不斷擴張的社會需求的獨特重要。然而,當我們活在可以數(shù)秒鐘內上網搜索展示百萬計的結果和國際股票市場日夜即時報道成交數(shù)據的時代,要等多月甚至多年才可收集、處理、發(fā)放在地理、企業(yè)與人口都有限制的靜態(tài)結果將失去它的意義。