據外媒報道,谷歌于近日發布了一個大型數據集合--Wikilinks Corpus,它將可以幫助開發人員構建出可以準確解釋人類語言的軟件。Wikilinks Corpus中包含了來自各大網頁及維基百科文章的4000多萬條個人鏈接,它們則被稱為mention。開發人員則可以通過分析每一條mention的內容以及目標文章的內容,進而確定一些模棱兩可單詞的意思。
谷歌在其Reaserch Blog中提出,人類非常擅長辨別同一個單詞在不同語境下的意思。比如說,當把dodge寫成Dodge時,它就是一個車子的品牌,而當寫成to dodge的時候,它就是一個動詞。
跟谷歌搜索算法非常類似,Wikilinks Corpus也是由在來自馬薩諸塞大學阿默斯特分校的研究人員的協助下完成的,并且它的規模要比以往的數據集合都要來得大。更重要的是,它是免費的。雖然由于版權問題,谷歌無法發布個人網頁的實際內容,但是它卻可以提供獲得這些內容的代碼。