網站首頁 實用文 書信 面試 實習 實習報告 職場 職責 勵志 名言 熱點
當前位置:人人簡歷網 > 熱點 > 黨建文案

基於數據挖掘的高校圖書館個性化服務研究

欄目: 黨建文案 / 發佈於: / 人氣:1.75W

(新鄉醫學院, 河南 新鄉 453003)
摘 要:文章簡述了數據挖掘技術應用到高校圖書館個性 化服務中的幾種關鍵技術,並通過分析其在高校圖書館工作中的應用,來説明數據挖掘對高 校圖書館發展的重要性。
關鍵詞:數據挖掘;
高校圖書館;
個性化服務
中圖分類號:G250.74  文獻標識碼:A  文章編號:1007—6921(2008)17—0200—02

基於數據挖掘的高校圖書館個性化服務研究

隨着數據庫和網絡技術應用的不斷深入發展,Internet技術和Web技術的日益成熟,個性化 服務逐漸成為現代高校圖書館發展的重要趨勢之一。個性化服務是根據對讀者行為習慣、文 化層次和信息需求等信息的分析而主動地向用户提供可能需要的信息或服務。由此可見,如 何自動識別用户的信息、目標和計劃是實現個性化服務的關鍵所在。

數據挖掘技術是信息識別、數據採集和數據處理技術的典型代表,能對圖書館所存在的潛在 信息以及讀者的個人信息進行高效的分析並比較準確的預測其發展趨勢,對於圖書館個性化 服務工作的發展和完善具有重要作用。因此,數據挖掘技術在高校圖書館個性化服務方面的 應用已經成為一種必然要求。
1 應用到圖書館個性化服務中的關鍵技術
1.1 關聯分析

每個數據庫中的數據之間都存在着一種潛在關聯,關聯分析的目的是從數據庫中發現隱藏在數據間的關聯,從而發現規則並應用到其他數據庫中,在不知道 數據庫中的關聯函數或者不確定的情況下,通過關聯分析抽取的規則便具有了一定的可信度 。例如:通過對讀者借閲檢索數據進行關聯分析,可以發現讀者在借閲文獻時的其他借閲行 為。
1.2 聚類分析

聚類是根據一定規則將數據庫中未分類的數據集劃分為一系列有意義的集合。集合中的數據 具有共同趨勢和模式。如果對同一個數據庫採用的不同的聚類方法進行劃分,則可能得到不 同的集合。在同一集合中,數據之間的差別較小,不同集合中數據之間差別較大。通過聚類 建立了宏觀概念, 增強了人們對客觀現實的認識[1]。
1.3 分類分析

分類是通過對樣本數據庫的數據進行分析,準確找出每個類別的概念描述或者建立分析模型 ,即這類數據庫的分類規則或者決策樹模式,然後用這個分類規則或決策樹模式應用到同類 數據庫中。是一種有指導的學習。分類方法可用於圖書館讀者借閲日誌數據的分析,從而得 出讀者的借閲需求、借閲特徵等信息。
1.4 預測分析

預測是通過對大量歷史數據的分析,找出數據的變化規律,建立模型,並用此模型來預測未 來數據的種類、特徵等。[1]典型方法是迴歸分析。例如,利用迴歸分析結合時間 序列分析對歷史流通流量日誌進行分析,可以推算出與往年相同時期的當前流通數量變化數 據。
2 數據挖掘在圖書館個性化服務方面的應用

隨着網絡和數據庫技術的飛速發展和廣泛應用,高校圖書館正在向信息化和數字化的方向 轉變,近年來,我國高校加大了對圖書館的投資力度,圖書館的數據庫和存儲設備不斷得到 擴充和擴容,網絡和服務器得到進一步普及和升級。在這種自動化的網絡環境下,數據挖掘 技術可以更好的完善高校圖書館個性化服務工作。
2.1 圖書推薦工作中的應用

圖書推薦工作是高校圖書館個性化服務的一個重要組成部分,是圖書館個性化服務的重要體 現之一。通過數據挖掘技術的應用,圖書推薦工作可以做的更加有效和快捷。下面簡單介紹 數據挖掘在圖書推薦中的應用流程。
2.1.1 數據準備

數據的準備是數據挖掘的最基礎的工作,沒有數據,數據挖掘將無用武之地。通過對讀者基 本信息數據庫、讀者借閲日誌數據庫以及其他涉及到讀者各種信息的數據庫進行選樣、整理 、數據轉換和預處理等數據處理,剔除無效和錯誤的數據,從而建立挖掘數據庫,為數據挖掘做好數據準備。


2.1.2 數據挖掘和建立模型

對挖掘數據庫應用關聯分析等數據挖掘技術,得到讀者的借閲習慣、興趣模式和閲讀趨勢等 ,從而建立讀者借閲行為模型。例如:通過對讀者的借閲日誌進行關聯分析,可以發現讀者 借閲一類圖書同時的其他借閲行為和圖書文獻之間的關聯。然後,計算這種關聯規則的支持 度和置信度,從而建立借閲模式。需要強調的是:挖掘數據庫是動態的,它是根據讀者行為 或興趣的改變而自動進行數據修改。
2.1.3 模型的測試

建立讀者借閲模型以後,就需要測試模型的實用性和有效性。從原始數據庫中選出一定比例 的數據對模型進行測試。通過讀者模型得出的結果與原始數據進行比較,如果模型的準確率 大於既定的標準,説明模型有效,否則,就需要重新進行挖掘,建立新的讀者借閲模型,直 到找到有效的模型為止。
2.1.4 結果的輸出

通過測試以後,需要把有效的讀者模型直觀的表現在讀者或者數據庫管理者面前,這就需要 結合可視化技術,在讀者或者圖書管理者輸入查詢條件時,通過網頁或者專門的數據挖掘系 統直觀地輸出查詢結果。同時,也有利於數據庫管理員或則決策者對數據庫進行直接的數據 分析和操作,及時瞭解用户需求,發現用户的訪問習慣和模式以及週期性行為特徵,利用推 送服務通過圖書館網頁為讀者提供個性化服務。同時為優化數據庫資源的管理和合理分配提 供決策支持。
2.2 採訪工作中的應用

圖書採訪是館藏建設和文獻資源佈局的首要內容,是高校圖書館重要的基礎業務工作。目前 ,很多高校圖書館的採訪工作是通過採訪工作人員自己擬定然後交館領導或者專業人員審閲 修改後進行採購,或者徵集各個院系部分學科專家的意見進行採購,這樣不可避免的帶有很 大的主觀意識和片面性。而且近年來國內外文獻資源數量巨增,各種載體形式複雜多樣,再 加上圖書文獻的購置經費有限,要在有限的購置經費下保證各個學科間的科學分配和各種文 獻載體的均衡以及購書的質量是一個令人頭痛的問題。

利用數據挖掘技術指導採訪工作,可以輕鬆解決這些問題。例如,利用關聯分析,對歷史採 購數據和圖書管理系統數據庫的讀者借閲日誌進行分析,可以發現各類所藏文獻間的潛在關 系和比例關係,以及讀者的借閲習慣和興趣模式,把信息及時反饋到採訪部門,可以有效避 免採訪書刊的比例失衡,而且可以根據讀者個人需求進行採訪工作;
利用分類分析,對圖書 管理系統數據庫的文獻流通記錄進行分析,可以輕易找出借閲頻繁的圖書類別和利用率較低 的圖書類別;
利用聚類分析,對適合各類讀者的圖書進行分析,可以比較精確地得出採購的 書目,為採訪工作提供有力的決策支持。
2.3 期刊工作中的應用

近年來,國內外期刊的種類逐年遞增,載體多種多樣,為期刊的採購增加了難度。再加上高 校各個層次的閲讀者都有,要滿足每個層次讀者的閲讀要求也是一個難題。數據挖掘技術提 供瞭解決這些問題的方法。利用分類分析對用户的借閲和查閲特徵進行完全分類,找出潛在 的借閲模式,然後再利用這些模式通過網頁或者檢索界面為讀者提供個性化服務,對潛在用 户進行推薦性服務;
基於信息論的決策樹算法也可以應用到期刊工作中,決策樹算法可以自 動從期刊讀者每日的訪問日誌等數據中收集有用數據,通過分析建立決策樹模型,從中可以 發現讀者的訪問模式和借閲習慣,瞭解讀者的信息需求,掌握讀者的個性化信息,從而為讀 者提供個性化服務。利用Web數據挖掘技術對分佈在互聯網上的一些期刊信息進行採集、處 理和分類。建立自己的特色數據庫,既減輕了期刊經費方面的壓力,又豐富了圖書館期刊的 信息資源。
2.4 情報諮詢工作中的應用

作為為高校廣大師生以及學科專家提供及時有用情報信息的情報部門,在圖書館中佔有至關 重要的地位。知識信息提供的是否及時有效是衡量情報部工作的一個標準。在當今網絡化、 數字化的時代,高校圖書館情報部門與互聯網的“親密”接觸,為情報部從網絡上採集和分 析 有用信息和數據提供了方便。但是互聯網上Web頁面綜合多樣,所含信息浩如煙海,要想快 速而高效地檢索到自己想要的知識是一個難題。

利用數據挖掘技術可以為情報工作部門提供了先進的信息資源管理工具,通過對全校不同學 科領域的有用數據和信息進行分類分析,可以自建特色數據庫;
利用分類分析和聚類分析技 術結合人工智能的一些算法,對從互聯網上檢索的相關信息按照學科建設和科研方向等類別 進行分類,從而實現自動信息檢索;
利用決策樹算法建立模型,實現專業學科數據和信息的 完全分類。用户可以在很短的時間內檢索到所需的信息和數據;
利用Web挖掘對互聯網的Web 網頁進行挖掘,Web挖掘可以根據需求自動從互聯網上搜索相關網頁,對這些海量數據進行 深層次分析,並保證數據的完整性和安全性。然後對檢索結果進行聚類和分類分析。把從互 聯網上檢索的相關信息按照學科建設和科研方向等類別進行分類,然後根據專業類別、研究 方向或者其他分類要求動態直觀地呈現到讀者面前。這樣,就大大節省了用户的時間,而且 也豐富了圖書館的館藏資源。
2.5 網絡技術工作的應用

高校圖書館的網絡技術部門是數據庫和網絡技術運用最深入和廣泛的部門。為了更加方便、 有效的為廣大師生和有關科研人員服務,圖書館會購買國內一些大型數據庫,例如:中國期 刊網、萬方數據等綜合信息服務商的全部或部分數據庫;
根據本校的一些科研工作和發表論 文自建小型數據庫;
或者從WWW上的有效數據鏈接下載與本校 學科建設有關的數據自建特色 數據庫。利用數據挖掘技術可以對這些數據庫的數據進行有效的信息組織和管理,並對信息 和數據進行深層次的分析、加工和處理,使之更好的為用户服務。例如,利用Web挖掘技術 可以對網絡上的數據進行有效的導航和整合,從而使用户得到更加精確和有效的信息和數據 ,為優化數據庫資源的管理和合理分配提供決策支持。
3 結語

隨着數據庫的不斷擴容和網絡技術在高校圖書館應用的不斷深入,高校圖書館傳統的工作方 式已經遠遠不能適應讀者日漸增長的需求,個性化服務方式將正式登上高校圖書館這個舞台 。隨着數據挖掘技術研究的發展和在高校圖書館的不斷深入應用,相信不久的將來,高校圖 書館個性化服務將會得到不斷完善和更快更好的發展!同時,也將推動高校圖書館的快速發 展,大大縮短高校圖書館的數字化進程。
[參考文獻]
[1] 陳文偉,黃金才,趙新昱著.數據挖掘技術[M].北京:北京工業大學出版社 ,2002:3~4.
[2] 何少卓.淺談數據挖掘及其在圖書館的應用[J].圖書館界,2004,9(3):52 ~54.
[3] 朱理達.圖書館信息管理與數據挖掘技術[J].河南圖書館學刊,2002,5(3) :60~61.
[4] 劉小東.數據挖掘在圖書館工作中的應用[J].情報雜誌,2005,(8):63~65. 
[5] 李志明,胡森樹.數據挖掘及其在現代化圖書館中的應用[J].圖書館學研究, 2006,(6):39~41.