圖像檢索,從20世紀70年代開始,有關圖像檢索的研究就已開始,當時主要是基于文本的圖像檢索技術(Text-based Image Retrieval,簡稱TBIR),利用文本描述的方式描述圖像的特征,如繪畫作品的作者、年代、流派、尺寸等。到90年代以后,出現(xiàn)了對圖像的內容語義,如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術,即基于內容的圖像檢索(Content-based Image Retrieval,簡稱CBIR)技術。CBIR屬于基于內容檢索(Content-based Retrieval,簡稱CBR)的一種,CBR中還包括對動態(tài)視頻、音頻等其它形式多媒體信息的檢索技術。
名詞簡介
在檢索原理上,無論是基于文本的圖像檢索還是基于內容的圖像檢索,主要包括三方面:一方面對用戶需求的分析和轉化,形成可以檢索索引數(shù)據庫的提問;另一方面,收集和加工圖像資源,提取特征,分析并進行標引,建立圖像的索引數(shù)據庫;最后一方面是根據相似度算法,計算用戶提問與索引數(shù)據庫中記錄的相似度大小,提取出滿足閾值的記錄作為結果,按照相似度降序的方式輸出。
為了進一步提高檢索的準確性,許多系統(tǒng)結合相關反饋技術來收集用戶對檢索結果的反饋信息,這在CBIR中顯得更為突出,因為CBIR實現(xiàn)的是逐步求精的圖像檢索過程,在同一次檢索過程中需要不斷地與用戶進行交互。
文本術語
基于文本的圖像檢索沿用了傳統(tǒng)文本檢索技術,回避對圖像可視化元素的分析,而是從圖像名稱、圖像尺寸、壓縮類型、作者、年代等方面標引圖像,一般以關鍵詞形式的提問查詢圖像,或者是根據等級目錄的形式瀏覽查找特定類目下的圖像,如Getty AAT使用近133,000個術語來描述藝術、藝術史、建筑以及其它文化方面的對象,并推出30多個等級目錄,從7方面描述圖像的概念、物理屬性、類型和刊號等。又如Gograph)將圖像分為動態(tài)圖像、照片、圖標、背景、藝術剪輯圖、插圖、壁紙、界面、成套圖像8個一級類,下設數(shù)量不等的子類。在圖像數(shù)字化之前,檔案管理者、圖書管理員都是采用這種方式組織和管理圖像。圖像所在頁面的主題、圖像的文件名稱、與圖像密切環(huán)繞的文字內容、圖像的鏈接地址等都被用作圖像分析的依據,根據這些文本分析結果推斷其中圖像的特征。
內容簡介
基于內容的圖像檢索根據圖像、圖像的內容語義以及上下文聯(lián)系進行查找,以圖像語義特征為線索從圖像數(shù)據庫中檢出具有相似特性的其它圖像。因為圖像的規(guī)模一般要大于純粹的文本信息,因此,基于內容的圖像檢索在檢索的速度和效率上要求更高。目前已有不少應用于實踐環(huán)境的基于內容圖像檢索系統(tǒng),如由IBM公司開發(fā)的最早商業(yè)化QBIC系統(tǒng),以及由哥倫比亞大學研發(fā)的WebSeek系統(tǒng)、麻省理工學院研發(fā)的Photobook系統(tǒng)等。通過基于內容的技術檢索Web圖像,首先需要從Web中剝離圖像,組成圖像集,對圖像集中的各個對象進行基于內容的特征分析、相似度匹配。
基于內容的圖像檢索系統(tǒng)一般包括圖像處理模塊、查詢模塊、對象庫和特征庫和知識庫
網絡簡介
根據基于文本的圖像檢索和基于內容的圖像檢索的實現(xiàn)原理可以發(fā)現(xiàn),一般圖像檢索系統(tǒng)提供給用戶的查詢方法主要包括下列幾種形式:
關鍵詞查找:關鍵詞查找輸入關鍵詞對查找圖像進行描述,大多數(shù)網絡搜索引擎提供的是關鍵詞查找的方式檢索,例如,希望查找山水風景的圖片,可以輸入“山水畫”;又如希望查找關于貓的圖片,可以直接輸入“貓”。
瀏覽查找:瀏覽查找是指通過等級式類目組織的圖像檢索人口,圖像按照不同的主題進行歸類,用戶在查找自己希望的圖像時,通過點擊層層類目的鏈接,到達自己所希望的類目下的圖像。
特征輸入查找:對圖像的特征參數(shù)進行設置,如希望圖像中的色彩比例為“R:128 ; G:128; B:64”,或者是對圖像的明亮度在0~100%之間加以調節(jié)。
草圖查找:用戶親自動手繪制希望查找的圖像特征,以用戶描繪的草圖為訓練樣本,查找與之相似的其它圖像。
示例查詢:包括系統(tǒng)隨機給出樣本和用戶提交樣本兩種,由系統(tǒng)隨機給出一組圖像訓練樣本時,讓用戶對這組圖像進行評價,選擇與自己的檢索需求相似的圖像,然后根據用戶選擇的圖像進行分析,檢出與之相似的其它圖像。另外,也可以由用戶提供一副圖像的地址信息,由圖像檢索系統(tǒng)即時抓取、即時分析。
歸納而言,圖像檢索的方法對應于圖像特征的三個層次,也可以歸結為相應的三個層次:
簡單的可視化特征層次:對圖像的簡單可視化特征進行查詢,如顏色、紋理、形狀或者是圖像中元素的空間,這些特征反應的一般是圖像本身客觀的一些屬性,因此,一般不需要任何外界知識的輔助。
中間的對象層次:對圖像的個體特征進行查詢是介于簡單的可視化特征查詢和高級的抽象語言特征查詢的中間狀態(tài),一般表現(xiàn)為對局部的特征查詢,例如檢索圖像中的某個對象或者是某個人物等。這種查詢一般需要對識別和檢索的目標進行一定程度的邏輯推理,所以需要借助外界知識的輔助。
高級抽象的特征層次:對圖形的抽象屬性的查詢,包括檢索與某個事件或者是某個活動相關的圖像,例如查找反映某種情感色彩,或者是符合某種風格流派的圖像,這時需要對這些抽象的目標和場景所代表的意義進行分析,需要對其進行更高級的推理,同時這類特征帶有較強的主觀色彩,因此,更需要外界知識的輔助。
研究三個方向
基于文本和基于內容是圖像檢索發(fā)展的兩個分支,不過從目前圖像檢索研究的趨勢而言,尤其結合網絡環(huán)境下圖像的特征——嵌入在具有文本內容的Web文檔中,出現(xiàn)了三個不同的研究著眼點。
立足于文本
立足于文本,對圖像進行檢索。試圖將傳統(tǒng)的文本檢索技術移植于對多媒體信息的檢索上,因為基于文本的檢索技術發(fā)展已經成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標注法等,不僅技術發(fā)展較為成熟,同時分析和實現(xiàn)的難度略小。但是因為受控詞匯本身的局限,易歧義,更新慢,所以不太容易應對網絡上日新月異的各類圖像。
立足于圖像內容
立足于圖像內容,對圖像進行分析和檢索。相比而言,盡管圖像檢索已經出現(xiàn)了諸如直方圖、顏色矩、顏色集等多種表征圖像特征的方法,但是要突破對低層次特征的分析,實現(xiàn)更高語義上的檢索,實現(xiàn)難度大,進展慢。不過,基于內容的圖像檢索建立在多媒體信息的內容語義上,能夠更為客觀地反映媒體本質的特征。
結合文本和內容
結合文本和內容,進行融合性研究。發(fā)揮各自的優(yōu)勢促進圖像的高效、簡單檢索方式的實現(xiàn),尤其是網絡環(huán)境下,結合圖像所在Web文檔的特征分析,推斷圖像的特征,同時結合對圖像的內容分析,共同標引達到對圖像的分析和檢索。
可以說,三個方向都是相互影響和促進的,任何一個方向的進展都會促進圖像檢索技術向前更進一步。
參考資料 >