進入21世紀,隨著計算機技術、網絡技術、通信技術的高速發展,信息的存儲和處理能力得到迅速提高,信息量持續增長,紙質文檔被不斷轉變為電子文檔,可以說,我們正在被呈幾何量級產生的信息所淹沒。但大量的信息卻因為沒有經過挑...[繼續閱讀]
海量資源,盡在掌握
進入21世紀,隨著計算機技術、網絡技術、通信技術的高速發展,信息的存儲和處理能力得到迅速提高,信息量持續增長,紙質文檔被不斷轉變為電子文檔,可以說,我們正在被呈幾何量級產生的信息所淹沒。但大量的信息卻因為沒有經過挑...[繼續閱讀]
標引(indexing),簡單說是一種標識和引導,是對文獻是什么信息的描述;具體是指在分析文獻內容或情報問題的基礎上,用某種索引語言或標識符號把文獻的主題概念及其他有檢索意義的特征標識出來,作為情報存儲和檢索的依據的處理過...[繼續閱讀]
標引按照使用的標引語言或標識符號的類型,可分為分類標引和主題標引;按照使用的標引設備,可分為手工標引和自動標引。1.2.2.1 分類標引分類標引,又稱文獻分類或信息分類,是依據特定的分類規則,對文獻進行分類標識的過程。分類...[繼續閱讀]
自動標引的研究至今大致經歷了三個階段:第一階段是20世紀50年代至90年代初。這個階段主要是關于關鍵字提取方法的研究。第二階段是20世紀90年代至90年代末。這個階段傳統的自動標引方法的效率已達到極限,因此自動標引方法的研...[繼續閱讀]
自動標引方法主要包括統計標引法、語言分析標引法、人工智能標引法、網頁標引法、概率標引法、詞典標引法等。下面對這些方法做一詳細介紹。1.3.2.1 統計標引法在各類自動標引的方法中,出現最早且被廣泛持續使用的是統計標...[繼續閱讀]
1.3.3.1 自動標引方法研究的不足自動標引通過近幾十年的發展,已取得了長足的進步,但國內自動標引的研究仍存在不足,主要表現在以下幾個方面。1.中文分詞算法存在缺陷找出各知識單元,是進行標引的第一步,但由于中文的特殊性,使...[繼續閱讀]
標引分為分類標引和主題標引,相對應的,標引的標準也分為分類法和主題詞法。1.4.1.1 分類法基于分類法的標引標準發展較早。早在1876年,杜威就創立了《杜威十進分類法》(Dewey Decimal Classfication,DDC),可以說是開辟了圖書分類法的新紀...[繼續閱讀]
元數據,即數據的數據,是用來描述數字化信息資源并確保這些數字化信息資源能夠被計算機自動辨析、分解、提取和分析歸納的一種框架或一套編碼體系。④基于元數據的信息資源描述標準目前使用最廣泛的有兩種:一種是使用較早...[繼續閱讀]
隨著計算機網絡技術以及通信技術的發展,網絡信息資源的數量呈幾何級增長,已經成為信息資源的主體,因而網絡信息資源標引也成為現代信息資源標引中首先要解決的問題,其標準也在傳統標準的基礎上產生了新的變化。1.4.3.1 MARC在...[繼續閱讀]