国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

基于數據挖掘的數字圖書館個性化服務
2007-09-25   51CTO

1 數字圖書館個性化服務的含義

近10年來,隨著“數字化生存”方式逐漸為人們所接受,數字圖書館因其信息量大、占用空間少、更新速度快、不受時空限制等特點而越來越受到人們的關注。但人們在享受著數字圖書館所帶來便捷的同時,也深受其龐大而形式多樣的信息資源困擾。因為信息資源具有較強的目標導向性,同樣的信息對于不同的個體表現出不同的價值。對單個用戶來說,不可能對數字圖書館的所有信息資源都需要,而同樣的信息也不一定會滿足所有的用戶。個性化服務是解決用戶“眾口難調”問題的關鍵,它是適應用戶多樣化需求的重要手段,也是圖書館應對信息資源多樣化的一個重要措施。

數字圖書館個性化服務是基于信息用戶的信息使用行為、習慣、偏好、特點及用戶特定的需求,向用戶提供滿足其個性化需求的信息內容和系統功能的一種服務。首先,它應該是一種能夠滿足數字圖書館用戶的個體信息需求的服務,即根據用戶提出的明確要求提供信息服務,或通過對用戶個性使用習慣的分析而主動地向用戶提供其可能需要的信息服務;其次,應該是一種培養個性、引導需求的服務,這樣可以幫助個體培養個性、發現個性、引導需求,促進社會的多樣性和多元化發展。數據挖掘是近年新興的計算技術與方法,它在科學發現、商業零售以及信用管理、醫學等領域已得到廣泛應用,并顯示出巨大的威力。最近幾年,數據挖掘技術開始應用于數字圖書館領域,使數字圖書館的功能有了較大的變化和發展。

2 數據挖掘及相關技術

數據挖掘也稱知識發現,是從數據庫中獲取人們感興趣的知識,這些知識是隱含的、潛在的。傳統的決策支持系統、知識庫中的知識和規則是由專家和程序人員由外部輸入的,是已知的,決策者可以用聯機分析處理等工具直接使用;而數據挖掘是從大量的內部數據庫中獲取尚未被發現的知識、關系、趨勢等信息。數字圖書館的數據挖掘是從數字圖書館大型數據庫、數據倉庫和浩瀚的網絡信息空間中發現并提取隱藏在其中的信息,目的是幫助信息工作人員尋找數據間潛在的關聯,發現被忽略的要素,而這些信息對預測趨勢和決策行為也許是十分有用的。數據挖掘根據其主要研究對象的數據結構形式的不同,一般粗分為數據挖掘、Web數據挖掘、文本數據挖掘3類。

2.1 數據挖掘(Data Mining)

面向數值數據的數據挖掘,通常稱數據挖掘。數據挖掘的任務主要是關聯分析、聚類分析、分類、預測、時序模式和偏差分析等。

(1)關聯分析(association analysis):兩個或兩個以上變量的取值之間存在某種規律性就稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分為簡單關聯、時序關聯和因果關聯,關聯分析的目的是找出數據庫中隱藏的關聯網,一般用支持度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等參數,使得所挖掘的規則更符合需求。

(2)聚類分析(clustering):聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。聚類分析可以建立宏觀的概念,發現數據的分布模式以及可能的數據屬性之間的相互關系。

(3)分類(classification):分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規則。分類可被用于規則描述和預測。

(4)預測(predication):預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數據的種類及特征進行預測。預測關心的是精度和不確定性,通常用預測方差來度量。

(5)時序模式(time-series pattern):時序模式是指通過時間序列搜索出的重復發生概率較高的模式。與回歸一樣,它也是用已知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。

(6)偏差分析(deviation):在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。

常見的數據挖掘方法主要有:統計分析、歸納學習方法、仿生物技術、神經網絡、決策樹、遺傳算法、貝葉斯信念網絡、模糊集、粗糙集等,由于各種方法都有自身的功能特點以及應用領域,因此不同方法的選擇將影響最后結果的質量和效果,通常是將多種方法結合使用,形成優勢互補。

2.2 Web數據挖掘

數據挖掘的對象是傳統的數據庫或數據倉庫,而Web數據挖掘是指針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、商務交易信息等在內的各種Web數據,應用數據挖掘方法及技術以發現有用的知識來幫助人們從萬維網中提取知識,改進站點設計,更好地開展電子商務或改進服務。Web數據挖掘分為Web內容挖掘、Web訪問信息挖掘、Web結構挖掘。

2.3 文本數據挖掘(Text Mining)

面向文本信息的數據挖掘,通常稱文本挖掘。當數據挖掘的對象完全由文本類型組成時,結合使用數據挖掘算法與信息檢索算法對巨量文本信息進行自動化信息處理與分析的過程叫文本數據挖掘。它包括特征提取、文本摘要、文本分類與聚類、概念操作以及探索性數據分析等工作。文本數據挖掘所應用的技術包含用于表示文檔的詞頻反文獻頻率(TFIDF)向量表示法、詞串表示法,用于文本分類的貝葉斯分類算法(Bayesian classifier)、詞集合算法(Bag of word),基于概念的文本聚類算法以及K—最近鄰參照分類算法等。

3 數據挖掘在數字圖書館中的應用

3.1 個性化服務

數字圖書館的個性化服務在整個數字圖書館系統中是很關鍵的部分,如同網絡向智能化方向發展一樣,信息服務也應“智能化”,即由被動服務轉向主動服務,由單純的信息呈現轉向信息生成。數字圖書館的個性化服務主要表現為兩個層次:第一層次為按用戶要求進行信息訂制。例如,慧聰國際I系列應用軟件中個性化信息服務軟件My info和I get,可以讓用戶根據自己的需要訂制專門信息,其功能包括數字圖書館站內搜索,Internet搜索,時間、日期、重要事件的提示,并可幫助用戶建立個性化信息空間。第二層次則是數字圖書館挖掘用戶興趣模式,主動提供服務,使數字圖書館成為一個智能型、主動性的信息提供商。

3.2 提高信息獲取速度

數字圖書館中的信息量是龐大的,在堆積如山的數據中包含著許多待提取的有用知識。對于用戶來說,他關心自己的需要是不是能夠被滿足更勝于關心數據圖書館中總的信息量。因此,要想為用戶提供更快、更有效的服務,就必須有一套很好的搜索機制。數據挖掘技術為數字化圖書館提供了先進的信息檢索工具,在數字圖書館的檢索中采用數據挖掘的相關理論和方法,設計的系統將有更大的智能性。

為保證用戶在盡可能短的響應時間內獲取所需信息,要搜集用戶每次閱讀的專題集合(瀏覽模式)作為一個事務,記錄所有用戶每一次的瀏覽過程構成事務庫,再對事務庫進行如下操作:第一,利用關聯規則采掘算法找到訪問頻率超過給定閾值的專題(項目)集,進而用分類算法把客戶的瀏覽模式與頻繁項目集進行相似匹配,將具有相似瀏覽模式的客戶組織到一個服務器上,從而減少服務器緩存和傳輸頁面的數量;第二,找到事務庫中某頻率訪問的專題集,利用關聯分析得到專題之間的關聯規則,存入服務器的知識庫,當用戶瀏覽某頁面時,網絡代理根據規則預先連接其關聯頁面,從而提高響應速度;第三,也可利用Web挖掘得到用戶訪問序列模式,根據預測,預先傳輸用戶可能閱讀的頁面。

3.3 拓展服務形式

數據挖掘可實現信息服務質量的提升和業務的拓展。數字圖書館借助現代信息技術,其意義不僅在于服務媒體和時空的轉變,更重要的是能夠借助數據挖掘技術,完善其服務結構和提升服務水平。

(1)信息檢索服務。信息檢索是數字圖書館提供的一個主要功能之一,信息檢索服務的質量是衡量數字化圖書館服務質量的一個重要標準。傳統的檢索工具缺乏結果的友好性、可理解性和交互性,往往將一大堆查詢結果線性呈現,令用戶不知所云。智能化的信息檢索不僅支持概念檢索、模糊檢索、聯想檢索及多語言檢索等,而且能迅速利用聚類算法將查詢結果分析聚類,使之條理化顯示,方便用戶篩選,同時在此基礎上確定進一步的檢索定位。例如,系統提示“Limited your research to result within one of the following categories”,從而實現交互式檢索。

(2)定題與查新服務。這兩種常用的針對科研的信息服務,其傳統方式是檢索文獻或光盤數據庫,然而在網絡時代,我們更不能忽視對外部網絡這一即時便利的信息發布平臺的搜索,才能確保查新結果的可靠性。同時,數字圖書館可運用興趣模式算法判斷并爭取潛在用戶,在服務過程中,還可利用可視化技術幫助用戶進行在線實時信息分析。

(3)信息分析服務。有專家指出,“對文本的探索性數據分析(EDA)才是真正的文本挖掘”。它是指直接對文本數據及其相互間的關系進行分析,從而識別出未知的、有用的知識的過程。例如,利用文本EDA形成一些科學假設等?;诖?,數字圖書館可提供面向商業用戶的信息分析,幫助它們確定發展和競爭策略,實現自身的收益。

4 構建數字圖書館個性化服務系統

利用數據挖掘技術構建數字圖書館個性化服務系統的前提和基礎是擁有大量、真實的數據積累,沒有數據積累,數據挖掘將無用武之地,因此要踏踏實實做好基礎數據庫的建設。在建庫及數據挖掘的整個過程中,需要各方人員共同參與,通力合作。

4.1 提取原始信息和收集用戶特征

用戶通過瀏覽器訪問數字圖書館時,系統可以記錄下來的用戶訪問數據有兩類:用戶信息和用戶行為特征。用戶信息包括用戶的姓名、性別、年齡、職業、愛好、教育程度以及用戶訪問IP地址等;利用Web日志記錄可獲得用戶的行為特征,如對知識點的點擊率、停留時間、訪問次數、下載次數、搜索關鍵詞及模式等信息,還有用戶的主觀信息,如網絡調查、BBS留言等。準確把握用戶的行為特征和偏好,是提供更精確、更符合用戶需求的信息服務的首要條件。

4.2 數據預處理和數據轉換

對收集到的數據進行加工處理和組織重構,如檢查數據的完整性及數據的一致性、去除噪聲或刪除無效數據、填補丟失的域、去除空白數據域、考慮時間順序和數據變化;找到數據的特征,用維變換或轉換方法減少有效變量的數目,找到數據的不變式,構建相關主題的數據倉庫,為下一步的數據挖掘過程提供基礎平臺,做好前期準備。

4.3 確定數據挖掘目標

數據挖掘的目標切忌空而大,應結合實際情況,細化、清晰。例如,根據用戶興趣的不斷變化,利用數據挖掘技術發現用戶的最新需要,或者根據用戶的興趣度,推薦相關專題信息,并提供個性化界面等。

4.4 數據挖掘

根據挖掘目標和數據特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘。選擇某個特定數據挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數據中的模式,進行數據挖掘、搜索或產生一個特定的感興趣的模式或一個特定的數據集,在此基礎上進行分析與評估,檢驗數據挖掘所得到的知識模式。

4.5 結果分析和知識的運用

對數據挖掘的結果進行解釋和評價,用預先、可信的知識檢查和解決數據模式中可能的矛盾,以改善數據倉庫,轉化成為能夠最終被用戶理解的知識,將分析所得到的知識加載到實際運行系統中。數據挖掘的過程是一個反復進行的過程,很難一步到位,需要對挖掘結果進行不斷的實踐應用、測試、修改、比對,直到最后達到用戶滿意為止。

5 結語

數字圖書館個性化服務改變了圖書情報機構以往“我提供什么用戶就接受什么”的運作方式,開創了“用戶需要什么我就提供什么”的發展思路。根據LITA(Library and Information Technology Association)的研究預測,個性化服務將成為未來數字圖書館技術發展的主要趨勢。事實也證明,隨著網絡用戶群的日益增長,更多的用戶期望能得到具有針對性的、個性化的信息服務和用戶支持。數據挖掘技術因其在海量信息資源中的智能表現,能為數字圖書館的個性化服務建設提供不可或缺的技術支撐。盡管數據挖掘作為一門前沿技術,自身還在不斷發展完善,還面臨著許多問題,如數據挖掘語言的標準化、對多種類型多層次知識的有效挖掘方法、數據的可視化等,但隨著研究的深入,數據挖掘技術必將對數字圖書館的建設產生積極的影響。

熱詞搜索:

上一篇:歸檔 (Archiving)應用的最佳實踐
下一篇:專家提醒:移動存儲信息安全是隱患

分享到: 收藏
主站蜘蛛池模板: 瓦房店市| 潢川县| 长垣县| 河北省| 阜新市| 集安市| 巴青县| 汝南县| 布拖县| 滨州市| 泾源县| 金阳县| 南投市| 米泉市| 滨海县| 秦皇岛市| 裕民县| 奎屯市| 巧家县| 武宣县| 武陟县| 皋兰县| 荣昌县| 鞍山市| 荣昌县| 微博| 宜君县| 呼和浩特市| 神农架林区| 军事| 廉江市| 中江县| 万荣县| 九寨沟县| 松潘县| 西贡区| 宣汉县| 南川市| 苗栗县| 达州市| 合川市|