必威电竞|足球世界杯竞猜平台

信息檢索
來源:互聯網

信息檢索(圖書館信息學 Retrieval,簡稱:IR),在狹義上是指用戶通過使用檢索工具或系統,采用特定的檢索策略和方法,從信息資源集合中查找和獲取所需信息的過程,其包含了解用戶的信息需求、信息檢索的技術或方法、滿足信息用戶的需求三個方面的含義。由信息檢索原理可知,信息的存儲是實現信息檢索的基礎。廣義上首先是信息的標引和存儲過程,其次是信息的分析和檢索過程。信息檢索的本質是用戶信息需求與信息資源集合之間進行匹配的過程。用戶在查找所需信息時表達需求,系統將需求特征與信息資源系統中的檢索語言進行匹配。

信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索已成為圖書館獨立的工具和用戶服務項目。隨著1946年世界上第一臺電子計算機問世,計算機技術逐步走進信息檢索領域,并與信息檢索理論緊密結合起來;脫機批量情報檢索系統、聯機實時情報檢索系統文獻信息檢索相繼研制成功并商業化。到了20世紀70年代,隨著通信技術的發展,美國出現了Tymnet和Telnet等數據通信網絡,通信費用有所降低,聯機檢索在美國逐漸普及。在20世紀80年代,隨著微型計算機的廣泛運用和高密度存儲介質——光盤的出現,計算機信息檢索進入了光盤檢索階段。在20世紀90年代,隨著衛星通信技術、網絡技術和多媒體技術的發展,信息檢索進入了網絡化檢索階段。此外,隨著人工智能技術的發展,因特網檢索逐漸向語義和知識檢索發展,進入智能化信息檢索階段。

信息檢索四大基本要素包括信息資源、信息需求、信息獲取和信息利用,在實踐中經常使用的信息檢索技術主要有布爾邏輯檢索、截詞檢索、限定檢索和位置檢索等。信息檢索有多種分類,按檢索手段可分為手工信息檢索和數字信息檢索;按檢索對象可分為文獻信息檢索、數據信息檢索和事實信息檢索(數據檢索和事實檢索是要檢索出包含在文獻中的信息本身,而文獻檢索則檢索出包含所需要信息的文獻即可);按組織方式可分為全文檢索、超文本檢索和超媒體檢索,可通過以內容特征劃分的主題途徑和分類途徑以及以外表特征劃分的著者途徑、題名途徑、序號途徑和引文途徑進行信息檢索。

信息檢索廣泛應用在文檔檢索、網頁檢索和社交媒體分析等領域,使人們能夠用最少的時間和精力在文獻中迅速而準確地獲得所需的知識,且能夠培養人們獲取最新信息和自我知識更新的能力,保持與社會發展同步的知識結構和思維方式,提高獨立學習的能力。但是信息檢索同樣面臨著檢索結果不全面、標引準確度不高、無法長久主動地提供信息服務等局限性。

歷史沿革

信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。隨著1946年世界上第一臺電子計算機問世,計算機技術逐步走進信息檢索領域,并與信息檢索理論緊密結合起來。

手工檢索

信息檢索起源于參考咨詢工作,讀者需要獨立使用圖書館提供的書目和索引工具,查詢所需的文獻和情報。在這個階段,信息檢索行為已經出現,但它是分散和非專業的,缺乏必要的重視和研究,因此未能形成專業化的情報檢索系統。19世紀下半葉,正規的參考咨詢工作逐漸發展起來,特別是在美國的公共圖書館和大專院校圖書館。20世紀初,多數圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現成答案。索引成為獨立的檢索工具,書目、文摘開始編制并用于專題文獻檢索。“信息檢索”從此成為一項獨立的用戶服務工作,并逐漸從單純的經驗工作向科學化方向發展。

然而,手工檢索操作簡單、費用低廉、查準率高,但效率很低,查全率不能保證。隨著科學技術的發展,文獻信息在不斷增加。傳統的利用印刷型文獻進行手工檢索的方式已不能適應信息的急劇增長,更跟不上時代發展的步伐。

機械信息檢索

機械信息檢索系統是在20世紀50年代開始使用的,它利用各種機械裝置進行情報檢索的機械系統。這是手工檢索向計算機信息檢索的過渡階段。1954年,萬尼瓦爾·布什(V Bush)博士在“Aswe may think”一文中首次提出了利用機械和電子技術實現情報檢索的設想。他描述了一種叫做“Memex”的機器,用于非線性檢索。他和美國農業部圖書館館員拉爾夫·肖共同制造了一臺快速檢索機,叫做布什·肖檢索機。這臺機器利用光電原理,對復制在膠卷上的文檔進行檢索。膠卷的邊緣上有黑白點作編碼,當遇到檢索內容時就停下來。

機械信息檢索系統通過改進信息的存貯和檢索方式,利用先進的機械裝置來控制機械動作,借助機械信息處理機的數據識別功能來代替部分人腦。這促進了信息檢索的自動化。但是,機械信息檢索系統并沒有發展信息檢索語言,只是采用單一的方法對固定的存貯形式進行檢索的工具。此外,它過分依賴于設備,檢索復雜且成本較高,檢索效率和質量都不理想。因此,機械信息檢索系統很快被迅速發展的計算機情報檢索系統所取代。

脫機批處理信息檢索

在20世紀60年代初期,美國開始利用計算機進行檢索工具的編輯和排版,并采用計算機來處理文獻記錄。他們將文獻記錄存儲在盒式錄音磁帶上,并編制各種索引,實現了自動照相排版和脫機批處理檢索服務。在這個階段,相繼產生了“化學題錄”和“醫學索引”數據庫。然而,由于當時計算機技術條件的限制,數據載體主要是磁帶和磁鼓,系統僅由一臺計算機和幾個相關的文件構成。專職情報工作人員根據用戶的需求和說明,將其編制成檢索提問,并將各種提問累積到一定數量后一次性輸入計算機進行批處理。然后將檢索結果返回給用戶。這個階段的特點是用戶并不直接參與檢索,而且由于數據載體是盒式錄音磁帶、磁鼓,只能進行簡單的順序查找。

聯機檢索

在20世紀60年代中期,以半導體為主要器件的計算機的出現,使得計算機的分時處理能力得到了大幅度的提高。同時,強功能檢索軟件的研制成功,使得脫機檢索迅速發展為聯機檢索。DIALOG和ORBIT等著名的國際聯機檢索系統開始對外提供服務。然而,由于當時的聯機檢索是租用公用電話線路,因此檢索費用非常昂貴。

到了20世紀70年代,隨著通信技術的發展,美國出現了Tymnet和Telnet等數據通信網絡,通信費用有所降低,聯機檢索在美國逐漸普及。隨后,衛星通信被用于計算機網絡,世界各大計算機檢索系統紛紛進入通信網絡為世界各地區提供服務,從而發展成為國際聯機檢索。

光盤檢索

在20世紀80年代,隨著微型計算機的廣泛運用和高密度存儲介質——光盤的出現,計算機信息檢索進入了光盤檢索階段。光盤以其超媒體、大容量的存儲方式,受到了情報界的青睞。光盤檢索不像聯機檢索那樣需要投資巨大的基礎設施和復雜的技術,檢索人員也無須具備專門的檢索技術,更不必擔心通信、聯機打印費用等問題。用戶可以不斷修正檢索策略,得到較為滿意的檢索結果。光盤數據庫的類型除了原來的書目、文摘數據庫外,增加了全文數據庫。但這種檢索方式受到光盤數據庫更新的局限,提供的信息有一定的時差。

光盤檢索系統分為單機和聯機兩種。單機光盤檢索系統由微機、CD-ROM驅動器、CD-ROM光盤數據庫以及檢索程序、驅動程序構成,它可以自成系統,供單個用戶檢索使用。聯機光盤檢索系統是單機系統的發展,20世紀80年代末出現了光盤塔和局域網支撐的光盤網絡。在局域網(如圖書館內部網或校園網)中連接多個用戶終端,由服務器管理、運行一組光盤數據庫,使多個終端用戶能同時檢索這些數據庫,共享信息資源

因特網檢索

在20世紀90年代,隨著衛星通信技術、網絡技術和多媒體技術的發展,信息檢索進入了網絡化檢索階段。這一時期,越來越多的正式出版物被放到網上,各種電子期刊、電子圖書、網絡化數據庫不斷涌現,網上有書目型、文摘型數據庫甚至全文數據庫,信息檢索十分方便,而且聲像結合、圖文并茂、形象生動。因特網使信息資源共享成為現實,其規模、復雜程度和快速發展趨勢已經使它成為世界上強大的通信工具,世界各大檢索系統紛紛進入因特網。

智能化信息檢索

此外,隨著人工智能技術的發展,因特網檢索逐漸向語義和知識檢索發展,進入智能化信息檢索階段。智能檢索是把現代人工智慧的技術與方法引入到信息檢索系統,使后者具有一定程度的智能特征,在更高的層次上實現其功能。智能化信息檢素在對內容的分析理解、內容表達、知識學習推理機制、決策等基礎上實現檢索的智能。以語義和知識檢索為例,相對于傳統檢索,語義檢索除了能夠檢索出與用戶關鍵詞完全匹配的結果之外,語叉檢索還能夠對關鍵詞進行擴展,從而有可能得到更加理想的檢索結果。語義檢索會嘗試著去理解檢索人員想要檢索的整個構思,推理出檢索人員的檢索意圖,從而檢索得到所需要的結果。知識檢索和信息檢索的不同,就在于知識檢索強調了語義,不會和信息檢索一樣,只是基于字面的機械匹配,它從文章的語義、概念出發,能夠揭示文章的內在含義。做到了語義和概念層次上的標引工作知識檢索就提高了查全率和查準率,降低了用戶的負擔。

原理

信息檢索的本質是用戶信息需求與信息資源集合之間進行匹配的過程。因此信息檢索的一般步驟就是一個問題從提出到解決的過程。這個過程要求信息檢索人員從檢索到的信息中甄別出能夠解決問題的方法,最終解決問題。信息檢索的基本步驟一般包括分析檢索課題明確檢索要求、選擇檢索工具、確定檢索途徑、提取檢索詞、編制檢索表達式、實施檢索、調整檢索策略、輸出檢索結果。用戶在查找所需信息時表達需求,系統將需求特征與信息資源系統中的檢索語言進行匹配。如果匹配成功,則所需信息在檢索結果中出現;如果匹配不成功,則需要重新分析檢索需求,調整檢索詞進行二次檢索。由于網絡信息資源體量大且更新快,很多信息資源的內容與元數據描述不相符,因此很難達到信息需求與信息集合完全匹配的情況。在信息檢索的過程中,需要根據檢索結果,適度調整檢索詞,使檢索結果盡量與信息需求相匹配。

基本要素

信息資源

信息資源是用戶需求得到滿足的基本保障。信息資源按出版形式可包括圖書、報刊、研究報告、會議信息、專利信息和學位論文等,按文獻載體可包括印刷型、機讀型和聲像型等。用戶通常通過檢索工具來尋找和獲取所需的信息資源,這些檢索工具是基于對信息資源進行加工和整理的基礎上創建的。正是由于用戶的信息需求和信息資源的存在,促使人們開發了各種檢索工具。通過利用這些工具,用戶可以更加有效地發現和獲取所需的信息,進而滿足他們的需求。

信息需求

用戶的信息需求是進行信息檢索的必要動力,他們通常通過檢索條件來表達這些需求。由于個體差異的存在,不同的用戶會有不同的信息需求,即使對于相同描述內容的信息,不同用戶的理解也會有所不同。具體表現為人們對信息的敏感程度、選擇取向和理解識別能力等。信息需求的意識包含信息認知、信息情感和信息行為三個層面,也是人們學習信息知識并運用信息解決實際問題的基礎。此外,用戶對檢索工具的認知程度也會影響他們正確選擇檢索工具和制定不同的檢索策略。

信息獲取

信息獲取是信息檢索的目標,要達到這個目標則需要了解各種信息來源,掌握信息檢索方法,熟練使用檢索工具,對信息檢索效果進行正確評估。具體體現在人們對信息存儲機構(如圖書館、Internet和各種光盤數據庫等)的應用能力。當用戶確定了合適的檢索工具后,他們需要選擇滿足其信息需求的檢索詞和檢索字段來構建檢索條件。在設定了合適的檢索條件后,檢索工具就會執行查找目標文獻的任務。不同的檢索策略會導致不同的結果,其中關鍵的步驟是檢索條件的設定。

檢索工具的質量直接關系到檢索任務完成的質量,這包括用戶能否在較短的時間內,以較少的成本找到足夠多的目標信息的線索和原始信息。據美國國家基金會在化學工業部內的調查統計表明,科研人員的全部工作時間分配是:收集信息占50.9%,實驗論證占32.1%.數據處理占9.3%,計劃與思考占7.7%。所以,掌握信息獲取技術,可以讓研究人員以最快速度、最精確的途徑獲得所需信息。

信息利用

檢索信息資源的目的在于利用,檢索效果的好壞與用戶的信息需求有直接的關系。實際上,信息資源是一種再生資源,在工程和科技等領域中可以根據不同的目標利用有關的信息。一方面,利用信息將能夠擴展視野,避免重復別人的研究工作;另一方面,也能夠將已有信息轉換成新知識。然而,由于在創建各種信息線索時缺乏統一的標準,不同的信息提供者往往根據自己的習慣來創建信息線索,導致許多符合用戶需求的信息線索不能被找到。另外,有些信息線索雖然符合用戶的檢索條件,但并不完全符合用戶的信息需求。

類型

按檢索手段劃分

手工信息檢索

手工信息檢索是一種傳統的檢索方式,它主要是通過使用各種工具書,如文摘、索引、手冊、目錄卡片等來檢索信息。這種檢索方式源自于文摘索引工作和圖書館的參考咨詢工作。盡管手工信息檢索不需要使用特殊的設備,其方法簡單且靈活,也容易為人們所掌握,但是它存在一些明顯的缺點。由于沒有機械設備的幫助,檢索過程非常費時且費力,很容易造成漏檢和誤檢。同時,由于純手工操作,對操作者的知識儲備和專業技能要求較高。

數字信息檢索

數字信息檢索主要指的是計算機檢索。自1946年第一臺計算機誕生以來,計算機在信息檢索領域的應用不斷取得突破。隨著網絡技術和多媒體技術的出現,信息檢索技術也在不斷更新和變革。隨著新媒體時代的到來,數字信息檢索的方式也增加了微信檢索、新浪微博檢索以及各類應用軟件內置的檢索等功能。這些新的檢索方式使得人們可以更加方便、快捷地獲取所需的信息,同時也使得信息檢索更加智能化和個性化。

按檢索對象劃分

文獻信息檢索

文獻信息檢索主要關注文獻的特征,旨在通過各種檢索工具(如文摘數據庫、索引數據庫、書目數據庫等)查找文獻線索,并依據這些線索找到一次文獻。這種類型的信息檢索涉及大量的數據,是信息檢索的主要組成部分。文獻檢索是一種深層次的、探尋相關性的過程,它并不能直接給出用戶問題的直接答案。然而,通過文獻信息檢索,科研用戶可以對特定課題的主要內容進行深入剖析,為項目研究提供重要的參考和借鑒。

數據信息檢索

數據信息檢索以數據為主要對象,其目的是通過特定的檢索工具(如數值數據庫、統計數據庫等)查找具體的數據,如文獻中的特定數據、公式、圖表,或某種物質的化學分子式等。

事實信息檢索

事實信息檢索以事實為主要檢索對象,旨在通過特定的檢索工具(如指南數據庫、全文數據庫等)查找具體的事實性、知識性的答案。與文獻信息檢索不同,數據信息檢索和事實信息檢索都是一種確定性檢索,用戶可以直接使用檢索出的信息,從而極大地節省了科研人員的時間,提高了研究效率。

按組織方式劃分

全文檢索

全文檢索是指對存儲在數據庫中的整本書、整篇文章中的任意信息進行檢索。用戶可以根據個人需求從中獲取相關的章節、段落等信息,同時還可以進行各種頻率統計和內容分析。

超文本檢索

超文本是一種通過超鏈接將不同空間內的文字信息組織在一起的網狀文本。它由多個信息節點和表示節點之間關聯的鏈組成,形成一個具有特定邏輯結構和語義關系的非線性網絡。超文本檢索是對每個節點中存儲的信息以及信息鏈構成的網絡信息的檢索。在進行超文本檢索時,重要的是理解中心節點之間的語義連接結構,這需要依靠系統提供的工具來進行圖形化展示和節點瀏覽查詢。

超媒體檢索

對文本、圖像、聲音等多種媒體信息的檢索,是超文本檢索的補充。

檢索語言

用戶在檢索時,需要將檢索提問轉換為系統所能接收的語言,這就是檢索語言。檢索語言是用于描述檢索系統中信息的內部或外部特征,表達用戶信息提問的一種專門語言。常見的檢索語言有分類語言和主題語言。

分類語言

分類語言是一種使用分類號和相應的分類款目名稱來表達信息主體概念,并將信息按照學科性質進行系統分類組織的檢索語言。其中最常見的是體系分類語言,它按照學科體系從綜合到一般、從復雜到簡單、從高級到低級的順序逐級展開。常用的檢索語言包括《中國圖書館分類法》《國際十進分類法》《美國國會圖書館分類法》《國際專類分類法》等。分類語言能夠較好地體現學科的系統性,將同一學科的文獻集中起來,有利于用戶從學科或專業的角度進行檢索,但需要用戶知道與概念相對應的分類號。

《中國圖書館分類法》

《中國圖書館分類法》簡稱《中圖法》,是中國各類圖書館和情報單位普遍使用的一部綜合性分類法。《中圖法》是按照科學分類,結合圖書特性所編制的一套系統的體系分類法,分為5大基本部類,又細分為22個基本大類,每個大類下面又根據學科的具體內容層層展開,逐級形成一個等級分明的科學體系。不同的字母與數字組合代表不同級次的類目,其中特殊的是“工業技術”用雙字母代表二級類目。

《國際十進分類法》

《國際十進分類法》,全稱為Universal Decimal Classification,也被廣泛稱為通用十進分類法。它是全球范圍內規模最大、用戶數量最多、影響最為深遠的文獻分類法。其基礎來源于美國的《杜威十進制分類法》(Dewey Decimal Classification,簡稱DDC),并被廣泛應用于科學論文的分類。

UDC采用簡單的阿拉伯數字作為標記符號。一級類目使用單個數字(0-9)進行標記,二級類目使用雙位數字(00-99)進行標記,三級類目使用三位數字(000-999)進行標記。如果需要進一步細分,則會在每增加一位數后加上一個小數點

《國際專利分類法》

在1971年3月24日獲得通過的《國際專利分類斯特拉斯堡協定》的基礎上編制而成的IPC分類表,是全球范圍內唯一通用的專利文獻分類和檢索工具。世界知識產權組織(WIPO)負責對該分類表進行周期性修訂。全世界有超過100個國家和地區,以及專利合作條約的WIPO國際局都在使用IPC分類法,其覆蓋了全世界95%以上的專利文獻。國際專利分類系統的體系結構如下:該系統按照技術主題設立類目,將整個技術領域劃分為五個不同等級,分別是部(Section)、大類(Class)、小類(Subclass)、大組(Group)和小組(Subgroup)。

主題語言

主題語言又稱主題詞語言,其不同于分類語言以學科體系為中心,而是用表達某一事物或概念的名詞術語來表達信息的特征。主題語言檢索直接、直觀,對某一主題信息的檢索效率較高。根據編制方法、規則和規范化處理的不同,主題語言一般分為標題詞語言、關鍵詞語言、單元詞語言、敘詞語言。

標題詞語言

標題詞語言是一種早期使用的主題語言,它采用規范化的詞匯來表達事物概念。這些詞匯是從自然語言中篩選出來的,包括詞、詞組或短語。標題詞表是一種根據標題詞語言編制的詞匯表,其中收錄了各種標題詞及其使用規則,揭示了詞匯之間的邏輯關系,是進行信息標引和檢索的重要依據。

然而,由于標題詞表中的主、副標題詞已經實現了固定的組配,使得在標引和檢索時受到一定的限制。因此,標題詞語言已不再適應現代信息檢索系統的發展需求。例如,標題詞表《EI標題詞表》(Subject Heading for Engineering,簡稱SHE)已無法完全滿足《EI檢索期刊》(Engineering 索引,簡稱EI)的檢索需求。因此,《工程敘詞表》(Engineering Thesaurus,簡稱EIThesaurus)已取代了《EI標題詞表》的地位。

關鍵詞語言

關鍵詞語言是一種自然語言,直接來源于信息的標題、文摘和全文,并對表征文獻主題內容具有實質意義。除了禁用詞(如一些冠詞、介詞副詞和連詞)外,凡在概念上有意義的詞都可以用作關鍵詞。以關鍵詞為檢索入口的檢索語言被稱為關鍵詞語言。公用關鍵詞能夠直接、不受詞表控制地表達事物概念,能夠及時反映新事物、新概念。關鍵詞語言已經被廣泛應用于計算機檢索中。在撰寫學術論文、畢業論文時,期刊的格式要求中會要求列出3~5個關鍵詞,以便于進行信息檢索。

單元詞語言

單元詞,也稱為元詞,是能夠表達主題的最小的、不能再分割的詞匯單位。它是從標題詞基礎上發展而來的檢索語言。單元詞具有相對的獨立性,但專指度較低,因此對查準率產生較大的影響。

敘述語言

敘詞語言是以自然語言為基礎,經過規范化處理后,通過詞匯的組配來標識主題的一種檢索語言。它借鑒了其他檢索語言的優點,并進行了改進。在直觀性、專指性以及兼容性等方面,敘詞語言都優于其他檢索語言。

檢索技術

布爾邏輯檢索

布爾邏輯檢索是檢索系統中應用最廣泛的檢索技術之一,同時也是最早建立的檢索理論之一。其理論基礎是集合論與布爾邏輯。它采用布爾邏輯表達式來表達用戶的檢索需求,布爾邏輯運算符有三個基本算符:“AND”“OR”“NOT”。使用這些算符可以連接兩個以上檢索詞,以表達檢索需求。

截詞檢索

在西方的語言文字中,一個詞的不同形態往往只具有語法意義,對于用戶而言它們是相同的。因此,為了減少漏檢,大多數檢索系統采用截詞檢索的方法。截詞檢索是指將檢索詞進行截斷,只取其中的一部分內容進行檢索。這種截斷操作可以使用特定的截詞符號進行,如“*”“#”和“$”等。

限定檢索

在文獻記錄中,同樣的詞出現在不同位置時,其對于表達文獻主要內容的作用會有所不同。常用的字段限制符包括“in”、“.”和“=”。其中,“in”是字段限制符,表示檢索內容必須出現在特定字段中。例如,“English in LA”表示限制檢索結果的語種為英文。而“.”和“=”則分別表示在特定字段中查找該詞或該字段的內容。

位置檢索

位置檢索是指利用位置算符規定檢索詞在一次文獻中的相鄰位置關系。位置運算符都隱含了邏輯運算符AND的含義,即由它們連接的兩個檢索詞(或檢索式)都必須出現,但位置運算符還對連接的兩個檢索詞(檢索式中的詞的位置關系)作了進一步的限定。

倒排索引

倒排索引(Inverted index)是一種在特定應用中根據屬性值來查找記錄的索引方法。在索引表中,每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于記錄的位置是由屬性值決定的,而不是由記錄本身決定的,因此稱之為倒排索引。

哈希索引

哈希索引(HashIndex)是一種特殊類型的索引,它建立在哈希表的基礎上。哈希索引只對精確查找有用,適用于使用索引中的每一列的情況。對于每一行,存儲引擎會計算被索引的哈希碼。哈希碼是一個較小的值,可能與其它行的哈希碼不同。存儲引擎將哈希碼保存在索引中,并保存一個指向哈希表中每一行的指針。如果多個值具有相同的哈希碼,索引將把行指針以鏈表的方式保存在哈希表的同一條記錄中。

查詢擴展

查詢擴展的目的是使用與用戶檢索意圖一致的詞語來擴展初始的、不成功的查詢,或者生成一個最有可能檢索到更相關文檔的相關查詢。當用戶提交的原始查詢簡短且具有歧義性,需要主題相關詞語輔助時,查詢擴展機制對改善檢索性能起到顯著作用,這也符合微博檢索所面臨的困難情況。查詢擴展的基本思想是在信息檢索過程中通過與用戶交互來提高最終的檢索效果。

Web查詢處理

Web查詢處理是搜索引擎信息檢索的關鍵步驟,也是用戶與搜索引擎交互的核心環節,主要體現在以下兩個方面:

首先,為用戶提供準確的查詢信息是搜索引擎的重要研究方向。由于查詢的特性,當前基于關鍵字匹配模式的搜索引擎無法完全滿足用戶的查詢需求,此外,隨著搜索引擎中結構化和半結構化數據的不斷增加,在這些數據資源上進行檢索能夠得到更直接和準確的結果。

其次,從提供信息到提供服務的轉變是當前搜索引擎的一個發展趨勢。搜索引擎致力于成為提供互聯網上信息、資源(如音頻、視頻、圖像等)以及交互應用(如地圖、購物、本地生活服務、新聞、社交等)的服務平臺。這種基于服務平臺的搜索引擎迫切需要準確理解用戶的查詢需求,向用戶提供更加個性化、場景化的精準信息搜索服務。

檢索模型

布爾模型

布爾(Boolean)檢索模型是一種經典的信息檢索模型,廣泛應用于傳統的信息檢索系統中。它將文檔表示為布爾表達式,然后通過與用戶查詢的表達式進行邏輯比較來檢索相關文檔。

在布爾檢索模型中,用戶可以使用邏輯運算符(AND)、(OR)(NOT)將多個關鍵詞連接成一個邏輯表達式來提交查詢。匹配函數由布爾邏輯的基本法則確定,通過對文檔表達式與用戶查詢表達式的邏輯比較進行檢索。檢索出的文檔要么與查詢相關,要么與查詢無關。

向量空間模型

向量空間模型(VSM)是Salton在1975年提出的一種信息檢索理論框架,旨在解決布爾模型中二元權重的局限性。VSM采用特征詞表達方式,使用TF-IDF(Term-頻率/Inverse Document Frequency)對特征詞進行權重賦值,利用倒排文件建立索引,使用余弦夾角作為距離度量,并使用查全率和查準率評價檢索系統性能。這些成果被成功地應用于基于關鍵詞的中文和英文信息檢索中。

向量空間模型的最大優點在于它在知識表示方法上具有巨大的優勢。在向量空間模型中,通過在文檔資源中提取其特征詞,并以某種方式為特征詞賦權,將文檔資源轉化成一組特征向量。與文檔資源的表示方法類似,也可以用向量空間模型來表示用戶興趣模型(User Profiles),即基于相同的特征詞將用戶興趣模型表示成N維空間的一個向量,向量中的每一維元素由相應的特征詞及其權重組成,權重值表達了用戶對該特征詞的興趣程度。

概率模型

概率模型(Probabilistic Models)是基于概率排序原則的信息檢索方法。它根據文檔資源與查詢的相關性概率大小進行排序,將最有可能被獲取的文檔資源放在最前面。概率模型旨在解決信息檢索中相關性判斷的不確定性和查詢信息表示的模糊性問題。在概率模型中,可以通過概率計算來分析特征詞之間的依賴關系以及特征詞與文檔資源之間的關聯。這有助于預測文檔與用戶查詢的相關概率,進而按照相關度概率的大小對檢索結果進行排序。

檢索途徑

按內容特征

主題途徑

主題途徑是一種按照文獻內容的主題來查找文獻的途徑。它以確定的主題詞作為檢索入口,按照主題字順進行查找。通常利用主題目錄和文獻檢索工具中的主題索引來實現。主題詞的選詞參照體系是《主題詞表》。使用主題途徑檢索文獻的優點在于,無需考慮文獻的學科體系,比較直觀,適合特征檢索。

分類途徑

分類途徑是一種按照文獻所屬的學科類別來檢索文獻的途徑。它以分類號(或類目)作為檢索入口,按照分類號(或類目)的順序進行查找。通常利用分類目錄和文獻檢索工具中的分類目次表,依據的是一個可參照的分類體系,如分類法、分類目次等。使用分類途徑檢索文獻的優點在于,能夠將同一學科領域的文獻集中在一起進行查找,方便對特定學科領域的研究資料進行系統性的檢索。通過學科分類體系,可以快速地定位到相關文獻所在的類別,提高檢索的效率。然而,分類途徑也存在一些缺點。新興學科、交叉學科和邊緣學科在分類時往往難以明確歸屬,給查找帶來不便。此外,從分類途徑進行檢索必須了解學科分類體系的構建和概念轉換為分類號的過程,否則容易發生差錯,導致漏檢。

按外表特征

著者途徑

根據著者的名稱查找文獻,是以已知的著者(個人著者、團體著者或公司、機構)的名稱作為檢索入口,通過著者目錄、個人著者團體著者索引等途徑來查找所需文獻的方法。

題名途徑

根據篇名或書刊名稱進行檢索,是通過文獻題名(包括書名、刊名、篇名)來查找文獻的途徑。這種途徑以題名作為檢索入口,只要知道文獻的題名,就可以通過文獻的題名索引(目錄)查找到所需文獻。

序號途徑

根據文獻的順序編號進行檢索,是通過文獻出版時所編的序號(如專利號、標準號、報告號、合同號、文獻登記號或人藏號等)作為檢索入口,利用序號索引來查找文獻的途徑。在序號索引中,單純為數字的序號按數字大小排列,字母與數字混合的序號則先依字母順序排列,然后再按數字大小排列。如果已知文獻號碼,使用這種檢索途徑不僅簡單,而且不易造成錯檢或漏檢。通過文獻的順序編號進行檢索,可以準確地找到所需的文獻資料,提高檢索的準確性和效率。在根據文獻順序編號進行檢索時,需要確保所使用的索引或數據庫是完整和可靠的,以避免因索引或數據庫的不完整而導致漏檢或錯檢的情況。

引文途徑

通過文獻結尾所附參考引用文獻或引文檢索工具查找引用文獻。

評價指標

混淆矩陣也稱為誤差矩陣,是理解大多數評價指標的基礎,用n行n列的矩陣來表示,主要包括如下4個要素:

準確率(Accuracy):準確率是最為常見的一項指標,即預測正確的結果占總樣本的百分比,其公式如下:

雖然準確率可以判斷總的正確率,但是在樣本不平衡的情況下,并不能作為很好的指標來衡量結果。假設在所有樣本中,正樣本占90%,負樣本占10%,樣本是嚴重不平衡的,模型將全部樣本預測為正樣本即可得到90%的高準確率。因此,也就衍生出了其他兩種指標:精確率和召回率。

召回率(Recall):召回率又叫查全率,它是針對原樣本而言的。召回率表示在實際為正的樣本中被預測為正樣本的概率,其公式如下:

精準率(Precision):精確率又叫查準率,它是針對預測結果而言的。精確率表示在所有被預測為正的樣本中實際也為正的樣本的概率。即在預測為正樣本的結果中,有把握可以預測正確的概率,其公式如下:

F值:在信息檢索文獻中,將精確度與召回率的調和平均值稱為F值(F-easure)。這個指標實際上借由精確度和召回率的加權調和平均值對模型的性能做出統計分析。

檢索方法

追溯法

追溯法可分為向前追溯法和向后追溯法。

向前追溯法

向前追溯法是一種傳統的獲取文獻的方法,它利用有關文獻后所附的參考文獻進行追溯查找。由于著者文獻后所附的參考文獻一般早于著者文獻5~10年時間,因此通過追溯法只能檢索到著者文獻之前5~10年范圍內的文獻。此外,由于著者文獻后所附的參考文獻數量有限,摘錄年代也不連續、不系統,而且當引用文獻很多時,可能會摻雜某些參考價值不大的文獻,這會影響到文獻檢索的效果。因此,只有在文獻檢索工具不齊全或計算機網絡環境不好的情況下,才會采用這種方法。

向后追溯法

向后追溯法,也稱為引文法,是利用文獻之間的引用和被引用關系,通過引文索引這種文獻檢索工具(如美國出版的《科學引文索引》)進行文獻追溯查找的方法。引文索引是按照期刊論文后面所附參考文獻的著者姓名順序編排的。在這種索引中,被引用著者的姓名下會按年代列舉引用文獻的著者及其文獻出處。若要找到引用文獻的標題,則可以再利用來源索引,在引文索引中出現的引用文獻著者的文獻標題及其查找原文的線索都可以從來源索引中找到。由來源索引中列出的引用文獻,就其內容來說,一定比被引用文獻內容新,某些論點有創新。如果再以引用文獻為起點繼續進行檢索,就可以查到一批內容比原來文獻更新穎的相關文獻。這種方法可以避開分類法和主題法檢索文獻的難點。有時,只需知道某論文的著者,亦同樣可以檢索到所需要的文獻。另外,它對檢索邊緣學科、交叉學科的文獻也是一種十分有效的方法。

工具法

工具法是一種利用文摘、索引、題錄等各種文獻檢索工具(文獻數據庫)查找文獻的方法。由于這種方法是文獻檢索中最常使用的一種方法,因此也被稱為常用法。工具法有順查、倒查和抽查3種方法。

順查法

順查法是一種按照時間順序從前往后查找文獻的方法。它以課題研究開始年代為起點,利用文獻檢索工具,逐年查找,直到近期為止。順查法的優點是漏檢較少,查出的文獻可以及時篩選,因此查全率和查準率比較高。其缺點是檢索的工作量比較大,需要有一套齊全的文獻檢索工具和較充裕的檢索時間。使用這種方法檢索出來的文獻比較系統,有助于了解學科的產生、演變和發展情況。

倒查法

倒查法與順查法相反,即從近期向遠期逐年查找。倒查法檢索效率比順查法高,花費時間不多,卻能檢索到內容新穎的文獻。

抽查法

抽查法是一種根據學科發展特點,選擇學科發展迅速、文獻發表較多的年代進行集中檢索的方法。它的優點是檢索時間相對較少,但能夠獲取較多的相關文獻。然而,使用抽查法需要檢索者熟悉學科發展的特點,了解學科文獻集中發布的時間和范圍,才能達到最佳的檢索效果。

交替法

交替法也稱循環法,實際上是追溯法和工具法的相互結合。根據結合的不同,又可以分為復合交替法和間隔交替法兩種。

復合交替法

復合交替法是一種結合了工具法和追溯法的文獻檢索方法。首先,利用文獻檢索工具查出一批有用的文獻,然后利用這些文獻后所附參考文獻中提供的線索,追溯查找,擴大檢索范圍(即先工具法、后追溯法)。或者先掌握一批文獻后所附的參考引用文獻線索,分析查找這些文獻所適宜的各種檢索途徑(如著者途徑、分類途徑、主題途徑等),然后利用相應的文獻檢索工具擴大檢索范圍,獲取新的文獻線索(即先追溯法、后工具法)。

間隔交替法

間隔交替法是一種結合了工具法和追溯法的文獻檢索策略。首先,利用文獻檢索工具查出一批有用的文獻,然后利用這些文獻所附的參考文獻追溯查找,擴大檢索范圍。之后,跳過一定時間(一般為5年),再用工具法進行查找,查出一批新的有用文獻后,再進行追溯。如此循環進行檢索。之所以可以跳過5年再直接從工具書中查找文獻,是因為根據文獻發表的特點,一般5年內的重要文獻會被引用,也就是說在參考文獻中會出現。

應用領域

文檔檢索

文檔檢索(Archie)為用戶提供了一種用于搜索和獲取電子目錄資源的功能。它實際上是一個大型的數據庫,以及與該數據庫相關的檢索方法。文檔檢索最早是一個由麥吉爾(McGill)大學的學生開發的計算機科學項目。文檔檢索的核心是一個數據庫,該數據庫包含了可通過斷點續傳獲取的資源信息,包括文件名、文件長度、存放文件的計算機名及目錄名等詳細信息。文檔檢索數據庫大約每月與每個站點進行一次FTP連接,并生成該站點所提供內容的列表。然后,這個數據庫會向各個文檔檢索服務器發布,以便每個人都可以使用它進行查詢。

網頁搜索

在眾多的網絡主機及網頁中,要連結某一個特定的網站卻又不知道該網站的網址時,就必須先進行網頁搜索。一般說來,網頁搜索的工作都是利用門戶網站中的搜索引擎來完成,只要在搜索引擎的查詢欄中輸入關鍵字,就可以進行相關網站、網頁的查詢。網頁索引技術就是依據一定的邏輯規范或排列順序去組織和管理文檔數據庫的方法。應用網頁搜索的本質特征是,只揭示網頁內容的大致主題、網頁來源的“出處或線索”性信息。對于數據組織或用戶查詢而言,網頁搜索并不直接提供完整的網頁本身的內容信息。搜索引擎使用網頁搜索的主要作用是,為廣大網絡搜索用戶快速地獲得海量網頁的全文內容提供準確且高效的線索性指引。

社交媒體分析

社交媒體數據挖掘源于人們對社交媒體數據分析的需求。社交媒體上的用戶由于其本身的“社會屬性”形成了在線的社會。在這個社會中,用戶與用戶之間發生很多不同類型的“交流”,包括一般的交談、給予評價、分享自己的狀態更新、對他人的分享和信息表示贊賞。通過在社交網站上收集用戶信息,營銷人員可以更好地理解客戶行為、目標受眾細分及受眾黏性。

檢索策略的編制及調整

檢索策略是為實現文獻查全、查準、查新這些目標而制定的方案。主要包括合理選擇數據庫,靈活選用檢索途徑,正確編寫檢索式,實檢及反饋調節等步驟。

合理選擇數據庫

信息檢索的效果一方面取決于現有的數據庫資源,另一方面則依賴于檢索者對各檢索系統的特性、功能的了解,以及對于各檢索數據庫的收錄情況、檢索途徑的了解。

靈活選用檢索途徑

不同的數據庫有不同的檢索途徑。只有認真分析檢索課題,并熟悉和掌握數據庫各條途徑的使用和特點,才能選擇正確的檢索途徑,獲得較高的檢索效率。

正確編寫檢索式

檢索式,又稱檢索提問式,是用戶向計算機檢索系統表達檢索需求的句式。根據對檢索課題實質性的分析,將最能表達課題內容和概念的自然語言轉換為計算機檢索數據庫能夠識別的檢索標識,并用各種檢索符號進行合理的連接。

實檢和反饋調節

在檢出結果后,可以進行多次修改,直到滿意為止。在調整檢索式時,可以從檢出信息的數量和質量兩個方面進行考慮。如果檢索結果不夠理想,需要分析原因并及時修正。如果結果質量不高,內容與原課題不符,則應考慮是否檢索詞選擇有誤或檢索式編寫不當,需要重新分析選擇并修改檢索式。如果檢出結果數量太多,可以在原檢索式的基礎上進行修改。

檢索系統

SCI

1961年,美國科學信息研究所(Institute for Seientific Information,ISI)在美國費城推出了著名的科學引文數據庫SCI(Science Citation Index)。SCI是全球聞名的引文索引數據庫和科技文獻檢索工具,與EI、ISTP一起被稱為全球三大檢索系統。由于SCI具有創新性的內容、高質量的數據以及悠久的歷史,它被譽為“全球三大索引之首”。

SCI收錄了涵蓋數理化、農、林、醫、生物學、天文、地理、工程技術自然科學各學科的近8000種高質量核心期刊,時間跨度近百年。所收錄的文獻主要是期刊論文,還包括會議錄、書評、專著等,涉及170多個學科。SCI不僅提供文獻本身的各項信息,還以期刊論文、會議文獻等資料的參考文獻(引文或引文文獻)的作者、出處等項目為依據,按照引證(來源文獻)與被引證(引文文獻)之間的關系進行排列和組織,從而形成一種獨特的檢索語言和檢索方法。

EI

美國工程索引(The Engineering 索引,EI)是全球著名的工程技術領域的權威大型文摘性檢索工具之一,創建于1884年。最初由美國工程師學會聯合會下設的工程索引公司負責編輯出版,早期以印刷版、微縮版等形式提供信息產品。自1969年開始,EI提供EI Compendex數據庫服務。

在EI數據庫主頁,用戶可以通過默認的快速檢索界面進行檢索。該界面支持最多三個檢索途徑的邏輯組配,使用戶能夠快速有效地找到所需信息。此外,EI還提供了專業檢索方法,以提供更強大和靈活的檢索功能。在專業檢索中,用戶需要使用檢索詞和布爾邏輯運算符以及檢索字段限制符來構建檢索式。

ISTP

科學技術會議錄索引(Index to Scientific&Technical Proceedings,ISTP)由美國科學情報研究所(Institute for Scientific Information)編輯出版,自20世紀80年代末創刊以來,以月刊形式每年度發布,是一種用于檢索多學科會議論文的索引工具。

會議錄內容構成了ISTP的主要部分,主要報道以期刊或圖書形式出版的會議錄。這些會議錄按照會議錄編號的順序排列,著錄內容包括會議錄名稱、會議名稱、會議日期、地點、主辦單位,以及會議錄的書名和副書名、從書名和卷號、期刊名稱、全部作者及第一作者的地址等詳細信息。

Google

Google是由斯坦福大學的博士生拉里·佩奇(Larry Page)與謝爾蓋·布林(Sergey Brin)于1998年9月創立的。Google是最早被公認為全球規模最大的搜索引擎。

Google搜索提供常規搜索和高級搜索兩種功能,Google默認的中英文主界面為基本檢索,以Google中文高級檢索頁面為例,該頁面提供了對檢索詞在搜索結果中出現的4種限定:包括全部字詞、包括完整字句、包括至少一個字詞、不包括字詞。在高級檢索界面中,還可以對語言、地區、文件格式、日期、字詞位置、網站和使用權限進行限定。用戶可以根據自己的檢索需要來進行限定,以提高搜索的準確度。

中國知網

1999年6月,清華大學、清華同方發起了以實現全社會知識資源傳播共享與增值利用為目標的信息化建設項目工程,簡稱中國知識基礎設施工程(China National Knowledge Infrastructure,CNKI)。中國知網以中文文獻為主,同時匯集了多種類型的外文文獻,資源類型包括期刊、學位論文會議論文、年鑒、報紙、圖書、標準、專利、科技成果等。

中國知網的檢索功能包括簡單檢索、高級檢索、專業檢索、作者發文檢索及句子檢索。簡單檢索是一種類似于搜索引擎的檢索方式,用戶只需在檢索框中輸入目標檢索詞,選擇相應的檢索字段,點擊“檢索”即可獲取相關文獻。在高級檢索中,用戶可以通過“+”增加或減少相關的檢索條件,利用“并含”、“或含”及“不含”三種邏輯關系實現檢索詞的組配,從而構建檢索式。

OPAC

OPAC(Online Public Access Catalogue),即聯機公共目錄檢索系統,于20世紀70年代初發端于美國的大學和公共圖書館,是供圖書館讀者查詢館藏的聯機目錄檢索系統。它取代了卡片目錄手工檢索系統,通過計算機網絡對館藏的信息資源進行檢索。在OPAC上可以檢索圖書館的書目數據庫。OPAC是網絡上的公共資源,凡互聯網用戶都可檢索,讀者也可檢索國內外其他圖書館的OPAC。

OPAC檢索系統的功能包括書刊信息檢索、個人信息檢索等,OPAC書刊信息檢索指館藏書刊目錄信息查詢,用戶可以通過書名、刊名、作者、分類號主題、ISBN、ISSN、出版社等多種途徑,對館藏印本資源進行檢索。

作用及局限

參考資料 >

生活家百科家居網