在當今信息爆炸的時代,每個單位或個人都在為信息的快速增長做出了各種貢獻。信息的種類也在不斷的擴展,越來越多的非結(jié)構(gòu)化信息不斷出現(xiàn),包括企業(yè)的各種報表、帳單、電子文檔、網(wǎng)站的各種元素、圖片、傳真、掃描影像,以及大量的多媒體的音頻、視頻信息等等。所有的存儲數(shù)據(jù)中,有85%采用的是非結(jié)構(gòu)化格式的,非結(jié)構(gòu)化信息每三個月增長一倍。由于信息格式的差異很大,所以基本無法整合為統(tǒng)一的接口供政府工作人員或廣大群眾方便使用。
系統(tǒng)概述
全文檢索是計算機程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統(tǒng)。全文檢索系統(tǒng)的核心則具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等功能。Goonie全文檢索系統(tǒng)的主要目標是實現(xiàn)文本索引的快速構(gòu)建(Index Construction),動態(tài)文檔集的索引維護(Index Maintenance),短語查詢(Phrase Query),Top-k查詢的快速處理(Top-k Query Process)以及各種檢索模型(IR Model)等。高性能和靈活的架構(gòu)也使Goonie全文檢索系統(tǒng)可以應用在內(nèi)外網(wǎng)檢索、專業(yè)系統(tǒng)資料檢索、行業(yè)專業(yè)數(shù)據(jù)庫檢索。
系統(tǒng)結(jié)構(gòu)
根據(jù)文件來源,分為Hadoop數(shù)據(jù)和oarcle數(shù)據(jù)兩類。
(1)hadoop數(shù)據(jù)
在線網(wǎng)盤的文本文件和非文本文件都保存在hadoop的hdfs或HBase數(shù)據(jù)表中,推薦系統(tǒng)的網(wǎng)頁文件也保存在hbase表中。這些文件通過tika、jsoup等文本提取或文本解析工具將文件名、文本內(nèi)容、網(wǎng)頁文字內(nèi)容等可索引數(shù)據(jù)解析出來保存在hbase表的對應字段中,然后通過ES-Hadoop,利用hive、spark大數(shù)據(jù)處理工具與elasticsearch協(xié)同工作,快速建立索引。
在線網(wǎng)盤上傳的新數(shù)據(jù)以及爬蟲爬取的推薦網(wǎng)頁數(shù)據(jù)會先進行解析,分別保存在hbase中和Kafka中。
索引更新程序從kafka中讀取數(shù)據(jù)進行更新。
(2)Oracle數(shù)據(jù)庫數(shù)據(jù)
信息化系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)保存在oracle數(shù)據(jù)表中。這類數(shù)據(jù)直接使用java編寫程序讀取oracle數(shù)據(jù),然后使用elasticsearch的API建立索引。
提供新建oracle表索引、更新表索引、刪除表索引接口,可在web端調(diào)用接口對oracle表的索引進行管理。
Oracle數(shù)據(jù)的索引自動更新采用定時任務進行。
功能特點
強大的信息采集能力
全文檢索系統(tǒng)是以先進的搜索技術(shù)為核心,并針對專業(yè)用戶所要求的搜索深度深、采集精度高和抓取速度快等進行了專門的優(yōu)化,采用了分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu),95%信息分鐘級到達本地。能夠采集多種動態(tài)和靜態(tài)網(wǎng)頁類型、多種文檔、數(shù)據(jù)庫類型,同時網(wǎng)頁實時增量采集技術(shù)實現(xiàn)分秒監(jiān)測網(wǎng)站信息變化動態(tài),使網(wǎng)站隨時獲取最新的信息資源。
分秒級的實時檢索
全文檢索系統(tǒng)采用獨有的增量實時索引技術(shù)保證信息即時采集即時檢索,使用戶隨時檢索到行業(yè)/地區(qū)最新的信息。
快速的檢索響應
全文檢索系統(tǒng)可實現(xiàn)亞秒級的檢索速度以及每秒上百次的并發(fā)檢索支持,保證全面快速的響應用戶檢索需求。
全面的檢索功能
全文檢索系統(tǒng)可實現(xiàn)全文檢索,完全支持布爾邏輯檢索、支持n階漸進檢索、支持同義詞檢索、支持自定義用戶詞典,模糊檢索,相關(guān)檢索等,并可以由系統(tǒng)管理員人工過濾不當網(wǎng)頁,為用戶提供最為適當?shù)臋z索結(jié)果。
精確的檢索結(jié)果
全文檢索系統(tǒng)采用智能中文切詞技術(shù),避免中文檢索的歧義與多義現(xiàn)象,同時采用相關(guān)性算法對網(wǎng)頁進行排序,保證檢索相關(guān)性最高的頁面放在最前面。
豐富的檢索結(jié)果展示
全文檢索系統(tǒng)為用戶提供豐富的檢索結(jié)果展示,能夠根據(jù)每個網(wǎng)站的不同風格和要求定制結(jié)果顯示模版。檢索結(jié)果包括智能動態(tài)摘要、獨有的網(wǎng)頁快照,以及多種檢索結(jié)果排序方式等等。能夠極大的方便用戶對檢索結(jié)果的瀏覽查看,提高用戶對檢索效果的滿意度。
基于Web的系統(tǒng)管理平臺
全文檢索系統(tǒng)采用標準的B/S架構(gòu),系統(tǒng)管理員可以隨時隨地通過瀏覽器登陸Web管理界面對整個系統(tǒng)的各項功能進行管理和系統(tǒng)維護,操作簡單易用,無需專業(yè)培訓即可迅速上手。
參考資料 >