網站首頁 實用文 書信 面試 實習 實習報告 職場 職責 勵志 名言 熱點
當前位置:人人簡歷網 > 熱點 > 黨建文案

淺談數據挖掘在情報學領域中的應用

欄目: 黨建文案 / 發佈於: / 人氣:6.44K

(新疆財經大學 圖書館,新疆 烏魯木齊 830012)
摘 要:
文章介紹了數據挖掘的含義及與傳統數據分析的不同,並 對其在情報研究領域中的應用進行了初步探討。
關鍵詞:數據挖掘;
情報學;
情報檢索;
情報服務
中圖分類號:G350.7  文獻標識碼:A  文章編號:1007—6921(2009)07—0303—02
1 情報學領域面臨的問題
1.1 資源全球化 信息海量化

淺談數據挖掘在情報學領域中的應用

可以説Internet 是全球最大的信息資源庫,其資源類型多樣,包括教育網站、虛擬圖書館 、虛擬軟件庫等等,為採集所需信息提供了方便和可能。但同時,網絡信息的無序又造 成利用率相對較低。另外,網絡海量數據的產生,使提取有用信息困難重重。
1.2 數據呈現非結構化

就目前大量視頻、音頻、動畫等非結構化數據而言,現有的檢索方法對這類數據的搜索難以 奏效。只有數據挖掘技術才能對海量結構化或非結構化數據進行高效檢索、處理及分析。
1.3 情報需求個性化

需求的個性化使得傳統的一對多的情報服務模式越來越不適應時代的要求。不同的企業有不 同的競爭情報服務需求,各科研機構需要不同領域的科技查新服務。這些個性化的服務需求 只能通過數據挖掘技術,建立一對一的服務平台來實現。

綜上,隨着信息量的快速膨脹、信息獲得手段和途徑的日益增加,人們可以獲得的信息越來 越多,可是,人們對有用信息佔有比例卻越來越小。因此,如何在浩瀚的信息海洋中找到有 用的信息越來越受到關注,數據挖掘技術就是在這樣的背景下應運而生。
2 數據挖掘技術簡介
2.1 數據挖掘的含義

簡單地講,數據挖掘是一種利用各種分析工具建構數據分析模型,在大型的數據庫 (或數據 倉庫) 中提取人們感興趣的知識的過程。提取的知識一般可以表達為概念、規則、規律、模 式等形式。數據挖掘(Data Mining),又稱數據庫中的知識發現,它產生於上世紀80年代初 , 是人 工智能、機器學習與數據庫技術相結合的產物。

是從大量的、不完全的、有噪聲的、模糊 的、隨機的原始數據中,提取隱含在其中的、事先未知的、但又潛在有用的信息的過程。數 據挖掘技術是面向應用的,它不僅面向特定數據庫的簡單檢索查詢調用,而且要對這些數據 進行深入的統計、分析和推理,發掘數據間的相互關係,完成從業務數據到決策信息的轉換 。數據挖掘技術把人們對數據的應用,從低層次的末端查詢提高到為決策者提供決策支持。


2.2 數據挖掘同傳統數據分析的區別

同傳統的數據分析相比,數據挖掘是在沒有明確假設的前提下挖掘信息,發現的知識通常是 未知的、很難預料的,但對人們是非常有用的;
而傳統的數據分析則是在人們提出某種假設 的前提下對數據進行分析,得出的結果往往可以預知。因此,傳統的數據分析只是表層的數 據分析,而數據挖掘則是對數據進行深層的挖掘。
3 數據挖掘在情報學領域的應用
3.1 情報收集

數據挖掘使情報收集方式由人工搜取( 檢索、購買、交換等) 擴展到機器自動抓取。數據挖 掘中搜索引擎技術為網上信息資源的情報蒐集提供了非常有效的工具,Web 挖掘不但能收集 所需的情報資料,而且可以提供各類信息資源被使用情況以及熱點專題等,利用數據挖掘技 術自動對所蒐集來的數據進行清理、去宂等處理, 不僅減輕了工作量,而且縮短了從原始信 息變成情報產品的時間。
3.2 情報處理
3.2.1 對情報處理對象的拓展。數據挖掘技術使情報加工不再侷限於結構化數據的處理、單一字符信息的處理,而是拓展到 音像資料、視頻信息等可視化信息的處理, 從單一結構化的信息處理延伸到異構的、半結 構、甚至無結構的文本信息的處理。
3.2.2 對情報處理技術的創新。數據挖掘提供了更加科學的、豐富多彩的分析處理手段。例如,在信息分類方面,所提供的 判定樹歸納分析、貝葉斯分類、傳播分類、基於關聯的分類等,完全突破了過去基於分類表 的分類思想,使不同的信息採用不同的分類方法,使分類結果更加具有針對性和科學性;
在 信息聚類處理方面,數據挖掘推出的針對不同類型數據的信息聚類方法 ( 劃分聚類、層次 聚類、基於密度、基於網絡、基於模型的聚類等) 使相同或相似信息能夠更加可靠地集聚在 一起。更為重要的是,複雜類型的數據挖掘技術使情報處理更加適應未來多樣化信息( 地理 空間信息、時序信息、多媒體數據以及文本與 Web 信息等) 的處理需要,使情報處理不再 受到媒體的限制。
3.3 情報服務
3.3.1 拓寬了情報服務範圍,增加了服務項目。傳統的、人工檢索式的定題服務,將上升為從廣博的網上資源和數據庫中自動挖掘、並通過 互聯網主動地把信息或知識推送給用户的服務方式;
信息的查新服務不再侷限在各種大型的 數據庫中,而是擴展到整個網絡資源,並對各企業門户進行挖掘, 給出全面的分析查新報告 。
3.3.2 昇華了服務理念,大大提高服務的主動性和質量。由於數據挖掘技術的應用,情報服務的重點將轉向為各層次的決策支持服務,而為科技的服 務則更多地由科技人員自己利用挖掘工具採取“自助式”服務。
3.3.3 完善了情報服務的內容和形式。

由於數據挖掘的目的是從海量的信息中發現知識,所以,情報部門提供給用户的不僅僅是信 息,還包含着大量用於解決問題的知識,其提供情報的形式也可能是將數據挖掘出的數據組 織成報表或繪製成直觀的圖形,便於用户分析決策。
3.4 情報分析

數據挖掘中的關聯規則分析技術將是傳統情報分析的補充。因為,通過對數據的關聯分析可 以發現隱藏在數據之中的、不易被人發現的、甚至與人的意識相違背的關聯事件。例如,在 商店的商品關係中,憑主觀意識人們無論如何也不會想到“湯匙”和“雜誌”會有購物的關 聯性,但在對美國一家超市的數據記錄的關聯挖掘的的確確發現了這樣的關聯,利用傳統的 情報分析方法是很難發現的。數據挖掘中另一種被廣泛使用的數據分析技術是聯機分析處理 ,它是能夠對多維數據進行分析處理的技術,可以從多個視角觀察分析,能夠同時針對多方 面的數據進行處理。總之,數據挖掘中的數據分析技術將大大加強情報分析的能力,使情報 分析得到多方面的支持,情報分析技術將更加完備和豐富多彩。
3.5 情報檢索技術

針對結構化的數據庫或文本型數據,傳統的檢索技術多為 布爾邏輯檢索或全文檢索技術,缺 乏對其他媒體數據的檢索手段。數據挖掘中對複雜類型數據的檢索技術將大大豐富情報檢索 的技術手段,如圖像識別技術、語音技術、基於相似性的檢索技術以及對時序數據採取的關 聯檢索的技術等。可以肯定,數據挖掘中的多媒體檢索技術完全能夠用於情報檢索之中,情 報檢索技術將因此實現跨媒體檢索,迎來全面突破。
4 數據挖掘對情報學產生的影響

數據挖掘不僅作為一種技術手段推進了情報學的發展,而且對情報學的理念和研究領域也產 生了廣泛而深刻的影響。
4.1 情報理念的完善

數據挖掘在情報學領域的應用,使情報學更多地注重實用性和使用價值。情報學的使命應該 以信息為素材,以知識的傳播、利用、功能為主體。通過技術上的日臻成熟來完善服務於人 的最終理念。比如體現在競爭情報服務上,競爭情報就是滿足企業為了贏得市場競爭的優勢 ,蒐集有關對手的技術、市場、客户、銷售等信息,經過分析處理使之變成具有競爭價值的 情報。
4.2 情報領域的延伸

數據挖掘是一個重要的技術手段,它的應用賦予情報學的研發流程與應用場景更為廣闊。

數據挖掘也是一個多學科交叉的新興研究領域,在這個領域中, 彙集了來自機器學習、模 式識別、數據庫、統計學、人工智能以及管理信息系統等各學科的成果,多元化的投入,使 得這一技術得以蓬勃發展,而且已初具規模。
4.3 情報工作的拓展

情報學發源於圖書館學和文獻學,現已發展成為自然科學、技術科學和社會科學的交叉學科 。數據挖掘技術與情報學的完美結合,除學術上的需要外,還具有極大的商業應用前景。即 使在情報學領域上的研究也主要是為生產、管理服務的,研究重點仍然是放在能見經濟效益 的應用方面。
5 數據挖掘技術帶來的新挑戰

目前,數據挖掘技術應用於情報學已經成為學科的熱點之一,但也還有許多亟待解決的問題 。尤其在實際推廣應用中, 例如:數據的複雜化需要更多領域的專業知識,巨大的數據庫對 算法的效率提出更高的要求,數據挖掘中人機交互功能的強化以及對內部數據和個人數據的 安全保護等等。我們堅信,隨着數據庫技術、人工智能技術及相關學科的不斷進步,上述問 題將會逐步得到解決,數據挖掘技術將會更好地服務於情報學的研究,服務於社會。
[參考文獻]
[1] 石冰,鄭燕峯. 信息檢索中的數據挖掘技術[J].情報學報,1999,(3).
[2] 趙丹羣. 數據挖掘: 原理、方法及其應用[J].現代圖書情報技術,2000(6).
[3] 蒲羣瑩.  基於數據挖掘的競爭情報系統模型[J].情報技術,2005,(1).
[4] 苗傑,倪波.面向集成競爭情報系統的數據挖掘應用研究[J]. 情報學報,200 1,(4).