信息檢索
信息檢索的手段
(1)手工檢索(2)光盤檢索
(3)聯(lián)機檢索(4)概括起來分為手工檢索和機械檢索:
手工檢索:指利用印刷型檢索書刊檢索信息的過程,優(yōu)點是回溯性好,沒有時間限制,不收費,缺點是費時,效率低。
機械檢索:指利用計算機檢索數(shù)據(jù)庫的過程,優(yōu)點是速度快,缺點是回溯性不好,且有時間限制。
計算機檢索、網(wǎng)絡(luò)文獻檢索將成為信息檢索的主流。
網(wǎng)絡(luò)信息檢索,也即網(wǎng)絡(luò)信息搜索,是指互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)終端,通過特定的網(wǎng)絡(luò)搜索工具或是通過瀏覽的方式,查找并獲取信息的行為。
中文信息檢索

中文信息檢索
【Chinese information retrieval】對中文文獻進行儲存、檢索和各種管理的方法和技術(shù)。中文文獻檢索技術(shù)出現(xiàn)在1974年,20世紀80年代得到了快速增長,90年代主要研究支持復(fù)合文檔的文檔管理系統(tǒng)。中文信息檢索在90年代之前都被稱為情報檢索,其主要研究內(nèi)容有:包括布爾檢索模型、向量空間模型和概率檢索模型在內(nèi)的信息檢索數(shù)學模型;如何進行自動錄入和其它操作的文獻處理;進行詞法分析的提問和詞法處理;實現(xiàn)技術(shù);對查全率和查準率研究的檢索效用;標準化;擴展傳統(tǒng)信息檢索的范圍等。中文信息檢索主要書目的檢索,用于政府部門、信息中心等部門。技術(shù)簡介
總體上,系統(tǒng)可分為四個部分:1. 數(shù)據(jù)預(yù)處理,2.索引生成,3. 查詢處理,4. 檢索。下面我們分別對各個部分采用的技術(shù)加以介紹。
數(shù)據(jù)預(yù)處理如今檢索系統(tǒng)的主要數(shù)據(jù)來源是Web,格式包括網(wǎng)頁、WORD 文檔、PDF 文檔等,這些格式的數(shù)據(jù)除了正文內(nèi)容之外,還有大量的標記信息,因此從多種格式的數(shù)據(jù)中提取正文和其他所需的信息就成為數(shù)據(jù)預(yù)處理的主要任務(wù)。此外,眾所周知,中文字符存在多種編碼,比如GB2312、BIG5、Unicode(CJK 區(qū)),而原始數(shù)據(jù)集往往包含多種編碼,因此要正確地檢索到結(jié)果必須進行統(tǒng)一編碼轉(zhuǎn)換。研究者們對預(yù)處理部分要提取哪些信息并沒有共識,這與后續(xù)處理所需的信息密切相關(guān),一般來說,正文、錨文本和鏈接地址都是要提取出來的。
索引生成對原始數(shù)據(jù)建索引是為了快速定位查詢詞所在的位置,為了達到這個目的,索引的結(jié)構(gòu)非常關(guān)鍵。如今主流的方法是以詞為單位構(gòu)造倒排文檔表,每個文檔都由一串詞組成,而用戶輸入的查詢條件通常是若干關(guān)鍵詞,因此如果預(yù)先記錄這些詞出現(xiàn)的位置,那么只要在索引文件中找到這些詞,也就找到了包含它們的文檔。為了進一步提高查詢的速度,在組織索引時還可以采用一些更復(fù)雜的方法,比如B樹、TRIE 樹、哈希表等。這個階段還需要對預(yù)處理之后的文檔進行詞法分析,這是因為很多語言的文本都不宜直接把正文中的字符串用于建立索引。例如,中文里的詞與詞之間不存在分隔符,因此必須先進行分詞,而英文中的詞存在很多變形,比如“compute”就存在“computes”、“computing”、“computed”等多種變形,應(yīng)先進行詞根還原。此外,有些詞雖然出現(xiàn)頻率很高,但對于查詢沒有任何幫助,比如“的”、“了”等,就無需放入索引,為此需要預(yù)備一個停用詞表(stop word list)對這類詞進行過濾。
查詢處理用戶輸入的查詢條件可以有多種形式,包括關(guān)鍵詞、布爾表達式、自然語言形式的描述語句甚至是文本,但如果把這些輸入僅當作關(guān)鍵詞去檢索,顯然不能準確把握用戶的真實信息需求。很多系統(tǒng)采用查詢擴展來克服這一問題。各種語言中都會存在很多同義詞,比如查“計算機”的時候,包含“電腦”的結(jié)果也應(yīng)一并返回,這種情況通常會采用查詞典的方法解決。但完全基于詞典所能提供的信息有限,而且很多時候并不適宜簡單地以同義詞替換方法進行擴展,因此很多研究者還采用相關(guān)反饋、關(guān)聯(lián)矩陣等方法對查詢條件進行深入挖掘。
檢索最簡單的檢索系統(tǒng)只需要按照查詢詞之間的邏輯關(guān)系返回相應(yīng)的文檔就可以了,但這種做法顯然不能表達結(jié)果與查詢之間的深層關(guān)系。為了把最符合用戶需求的結(jié)果顯示在前面,還需要利用各種信息對結(jié)果進行重排序。目前有兩大主流技術(shù)用于分析結(jié)果和查詢的相關(guān)性:鏈接分析和基于內(nèi)容的計算。許多研究者發(fā)現(xiàn),WWW 上超鏈結(jié)構(gòu)是個非常豐富和重要的資源,如果能夠充分利用的話,可以極大地提高檢索結(jié)果的質(zhì)量?;谶@種鏈接分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法,同年J.Kleinberg 提出了HITS 算法,其它一些學者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。這些算法有的已經(jīng)在實際的系統(tǒng)中實現(xiàn)和使用,并且取得了良好的效果。而基于內(nèi)容的計算則沿用傳統(tǒng)的文本分類方法,多采用向量空間模型、概率模型等方法來逐一計算用戶查詢和結(jié)果的相似度(相關(guān)性)。兩者各有優(yōu)缺點,而且恰好互補。鏈接分析充分利用了Web 上豐富的鏈接結(jié)構(gòu)信息,但它很少考慮網(wǎng)頁本身的內(nèi)容,而直觀上看,基于內(nèi)容的計算則較為深入地揭示了查詢和結(jié)果之間的語義關(guān)系,但忽略了不同網(wǎng)頁之間的指向關(guān)系,因此如今很多系統(tǒng)嘗試把兩者結(jié)合起來,以達到更好的性能。
研究現(xiàn)狀
評價指標
為便于理解評測結(jié)果所代表的意義,我們先來介紹一下評測中常用的指標。評測指標直接關(guān)系到參評系統(tǒng)的最終評價,指標不合理會導(dǎo)致對系統(tǒng)的評價也不合理,因此規(guī)范化的評測會議對于評價指標的選擇都是很慎重的。
早期常用的評測指標包括準確率(Precision)、召回率(Recall)、F1 值等。
召回率考察系統(tǒng)找全答案的能力,而準確率考察系統(tǒng)找準答案的能力,兩者相輔相成,從兩個不同側(cè)面較為全面地反映了系統(tǒng)性能。F1 值是一個把準確率和召回率結(jié)合起來的指標??紤]到某些情況下不同系統(tǒng)的準確率和召回率互有高低,不便于直接比較,而使用F1 值就可以更直觀地對系統(tǒng)性能進行排序。
隨著測試集規(guī)模的擴大以及人們對評測結(jié)果理解的深入,更準確反映系統(tǒng)性能的新評價指標逐漸出現(xiàn),包括:
1. 平均準確率(Mean Average Precision,即MAP):單個主題的MAP 是每篇相關(guān)文檔檢索出后的準確率的平均值。主題集合的MAP 是每個主題的MAP 的平均值。MAP 是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標。
2. R-Precision:單個主題的R-Precision 是檢索出R 篇文檔時的準確率。其中R 是測試集中與主題相關(guān)的文檔的數(shù)目。主題集合的R-Precision 是每個主題的R-Precision 的平均值。
3. P@10:P@10 是系統(tǒng)對于該主題返回的前10 個結(jié)果的準確率??紤]到用戶在查看搜索引擎結(jié)果時,往往希望在第一個頁面(通常為10 個結(jié)果)就找到自己所需的信息,因此設(shè)置了這樣一個擬人化的指標,P@10 常常能比較有效地反映系統(tǒng)在真實應(yīng)用環(huán)境下所表現(xiàn)的性能。