必威电竞|足球世界杯竞猜平台

圖像分割
來源:互聯網

圖像分割(Image Segmentation),是指將圖像分成若干互不重疊的子區域,使得同一個子區域內的特征具有一定相似性,例如顏色、亮度或紋理,不同子區域間特征呈現較為明顯的差異。這種技術是許多圖像分析任務中的第一步,如對象檢測、跟蹤及場景理解。

圖像分割的研究起始于20世紀80年代,當時計算機視覺領域剛剛興起。早期的分割方法主要基于閾值分割、邊緣檢測和區域生長等技術,這些方法對于簡單的圖像場景能夠取得較好的效果。2000年到2010年期間,隨著計算機硬件的發展和圖像處理需求的增加,這一時期,基于圖論的分割方法和基于聚類的分割方法開始受到關注,分割的效果也因此得到了改善。21世紀初,隨著深度學習的興起,基于卷積神經網絡(CNN)的分割方法開始成為主流,這些方法能夠處理更加復雜的圖像,并提高了分割的準確性和效率。

圖像分割方法包括基于閾值、區域、邊緣、圖論、聚類等傳統的分割方法,以及基于深度學習的分割方法。其在多個領域有著廣泛的應用,在醫療影像分析中,識別腫瘤或器官圖片,從而輔助診斷和治療。此外,這項技術還在自動駕駛、工業生產、遙感等領域中發揮著關鍵作用,它使得計算機能夠更好地理解和解釋視覺信息。然而,圖像分割也面臨一些問題與挑戰例如,實時圖像語義分割、三維場景的語義分割、弱監督或非監督語義分割、小尺寸目標分割、復雜背景圖像分割、光照變化等。其未來發展方向有創建更具挑戰性的數據集、構建可解釋的深度模型、構建內存高效模型等。

概述

圖像分割是指將圖像劃分成互不相交的、有意義的子區域,在同一個區域的像素點具有一定的相關性,不同區域的像素點存在一定的差異性,即是對圖片中有相同性質的像素賦予相同標簽的過程。

分割的目的是把圖像空間分成一些有意義的區域。例如一幅航空照片,可以分割成工區、住宅區、湖泊、森林等。可以以逐個像素為基礎去研究圖像分割,也可以利用在規定領域中的某些圖像信息去分割。分割的依據可建立在相似性和非連續性兩個基本概念之上。目標是簡化或改變圖像的表達形式,使其更容易分析。在圖像分割過程中,每個像素被分配到一個特定的類別,從而根據某些共有特征如顏色、強度或紋理將相似的像素聚集在一起。這種技術是許多圖像分析任務中的第一步,如對象檢測、跟蹤及場景理解。

發展歷史

最早的圖像分割方法應用在醫學影像處理領域,對影像中的特定目標分割后再進行醫療分析診斷。由于醫學影像場景簡單,背景和目標區別明顯,在該領域中大多是通過簡單的基于閾值的方法進行粗糙的像素級別的分割。隨著分割場景的復雜化,對分割技術的要求也愈加嚴格,陸續出現了基于邊緣區域、聚類、圖論等的分割方法,分割的效果也因此得到了改善。特別是將深度學習引入到圖像處理領域后,賦予了分割區域更準確的語義信息,圖像分割問題也取得了突破性的進展。

早期傳統分割方法階段

在2000年之前,圖像分割技術主要依賴于一些傳統方法,如閾值分割、區域增長、邊緣檢測等。這些方法通常基于圖像的底層特征,如像素強度、顏色、紋理等。這一時期的圖像分割技術相對簡單,但為后續研究奠定了基礎。

日本學者在1978年提出一維OTSU 閾值分割算法,該算法首先選取一個閾值 k,將圖像分為前景和背景兩部分,并計算兩區域的類間方差。類間方差的值越大,代表前景和背景的區別越大,則閾值分割的效果越好。1980年,卡普爾(J. N. Kapur)等人提出全局閾值分割,利用灰度直方圖熵進行圖片分割的自動閾值選擇,可以成功地將圖像閾值化為兩級圖像。1997年阿蘭·特雷莫(Alain Tremeau)和娜塔莉·博雷爾(Nathalie Borel)最早提出區域生長法,該算法從區域生長過程開始,基于考慮顏色相似性和空間鄰近性的標準,根據僅考慮顏色相似性的標準合并生成的區域,以便在空間上不連接但比色相似的區域中生成正在處理的圖像的非分區分割。

基于圖論、聚類的分割方法階段

2000年到2010年期間,隨著計算機硬件的發展和圖像處理需求的增加,圖像分割技術得到了顯著提升。這一時期,基于圖論的分割方法和基于聚類的分割方法開始受到關注。

圖論方法通過構建圖像的圖模型,并利用圖切割算法進行分割,能夠較好地處理圖像中的復雜結構。美國計算機科學家佩德羅·費爾岑什瓦爾布(Pedro F Felzenszwalb)和哈滕洛赫(Huttenlocher)于2004年開發了FH算法,該算法基于圖論中的最小生成樹原理。它通過對圖中頂點進行聚類來劃分區域,聚類過程依據的是頂點間的內部相似性和區域間的差異性。Graph Cuts 算法由博伊科夫(Boykov)等人于2006年提出,該算法開始時將整個圖看作一個整體,通過不斷調整圖中節點的分割狀態,直到滿足最小全局最優目標函數的分割為止,其缺點是需要大量的矩陣廣義特征向量運算,且其分割結果更傾向于具有相同的類內相似度。

聚類方法則通過將像素或區域劃分為不同的群組來實現分割,其優勢在于能夠處理大量的數據。此外,基于分類的分割方法也開始出現,這些方法通過學習訓練數據中的特征來進行分割,提高了分割的準確性和魯棒性。2007年謝赫(Sheikh)等人提出了一種模式搜索算法,稱為 Medoidshift 算法,該算法能自動計算聚類數目,而且數據不必線性可分,但其時間復雜度較高。2009年萊溫施泰因(Levinshtein)等人提出了一種幾何流的超像素快速生成算法,稱為 TurboPixels。該算法將圖像分割成近似網格結構的圖像塊,圖像塊較好地保持了圖像的局部邊界,并限制了欠分割的發生,時間復雜度低,適合于百萬像素級的大圖像。阿坎塔(Achanta)等人在 2012 年提出一種簡化的超像素生成方法 SLIC,運行速度、超像素緊湊度、輪廓保持方面都有一定優勢,需要的超參數較少。

基于深度學習方法階段

2010年至今,深度學習的興起為圖像分割帶來了革命性的變化。特別是卷積神經網絡(CNN)的出現,使得圖像分割技術實現了從傳統手工特征到深度特征的轉變。深度學習模型能夠自動學習圖像中的高級特征,從而在復雜場景中實現更為精確的分割。此外,全卷積網絡(FCN)、U-Net、Mask R-CNN、DeepLab系列等深度學習架構的提出,進一步推動了圖像分割技術的發展。在2015年,喬納森·朗(Jonathan Long)等人提出了一種名為 FCN(全卷積網絡)的模型,這種結構允許FCN處理任意尺寸的圖像輸入,并生成像素級的密集預測,實現了真正的端到端圖像語義分割。2015 年,德國計算機科學家奧拉夫·龍內伯格(Ronneberger)等人提出了 U-Net 語義分割模型,該模型主要應用于醫學細胞檢測上,其不僅精度高,普適性也較強。DeepLab-V3 算法于2018年推出,該算法對 ASPP 模塊的空間結構進行了優化。這些架構能夠在像素級別上進行精確的圖像理解,大大提高了分割的精度和效率。DeepLab-V3+ 在 DeepLab-V3 的基礎上添加解碼結構,DeepLab-v3 模型作為編碼部分,對圖像進行處理后輸出 DCNN 中淺層特征圖和經過 ASPP 融合卷積后的特征圖,并將兩者作為解碼部分的輸入。

分割方法

傳統圖像分割方法

基于閾值的圖像分割方法

基于閾值的圖像分割方法實質是通過設定不同的灰度閾值,對圖像灰度直方圖進行分類,灰度值在同一個灰度范圍內的像素認為屬于同一類并具有一定相似性,該類方法是一種常用的灰度圖像分割方法。用表示原始圖像像素的灰度值,通過設定閾值T,將圖像中的像素分為目標和背景兩類,實現輸入圖像到輸出圖像的變換:

其中,表示屬于目標類別的圖像,表示屬于背景類別的圖像。

如下圖不同閾值情況下的圖像分割效果圖所示,針對同一灰度圖像即原始圖像(a),設定不同的灰度閾值 T=80、120、160分別進行閾值分割,分別得到不同效果的分割圖(b)、(c)、(d)。

基于區域的圖像分割方法

區域生長法

假定區域的數目以及在每個區域中單個點的位置已知,則可推導一種算法。從一個已知點開始,加上與已知點相似的鄰近點形成一個區域。這個相似性準則可以是灰度級、彩色、組織、梯度或其他特性。相似性的測度可以由所確定的閾值來判定。它的方法是從滿足檢測準則的點開始,在各個方向上生長區域。當其鄰近點滿足檢測準則就并人小塊區域中,當新的點被合并后再用新的區域重復這一過程,直到沒有可接受的鄰近點時,生成過程終止。

如下圖區域生長簡例所示,這個例子的相似性準則是鄰近點的灰度級與物體的平均灰度級的差小于2。圖中被接受的點和起始點均用一短線標出,其中圖(a)是輸入圖像;圖(b)是第一步接受的鄰近點;圖(c)是第二步接受的鄰近點;圖(d)是從6開始生成的結果。

分裂合并法

分裂合并法的實質是通過不斷地分裂合并,得到圖像各子區域。具體步驟為:先將圖像劃分為規則的區域,然后根據相似性準則,分裂特性不同的區域,合并特性相同的鄰近區域,直至沒有分裂合并發生。該方法的難點在于初始劃分和分裂合并相似性準則的設定。

下圖展示了基于區域的圖像分割技術處理后的效果圖。首先,對原始圖像a進行了灰度轉換,得到了灰度圖像(b),隨后分別采用區域生長法和分裂合并法進行圖像分割。區域生長法的分割效果如圖(c)所示,這種方法計算過程較為簡單,但對噪聲較為敏感,容易造成區域的不完整,如圖中頭盔部分由于背景顏色的干擾而出現了殘缺;分裂合并法的分割效果如圖(d)所示,這種方法對于復雜圖像的分割效果較好,但其計算過程較為復雜,且在分裂過程中可能會破壞邊界,如圖(d)中,車輪的輪廓信息在合并過程中被破壞,導致車輪邊緣出現了模糊現象。

基于邊緣的圖像分割方法

基于邊緣檢測的圖像分割方法旨在通過識別不同區域間的邊緣來解決分割問題。這種方法基于一個關鍵假設,即不同區域間的邊緣通常伴隨著顯著的灰度變化。其核心思路是首先識別圖像中的邊緣點,然后按照特定的策略將這些點連接成連續的輪廓線,以此形成分割區域。

在實際應用中,邊緣檢測算法通常使用各種梯度算子(如Sobel、Prewitt、Roberts和Canny算子)來計算圖像亮度的局部變化。這些算子通過檢測圖像中的水平和垂直梯度來確定邊緣的位置。梯度是一個向量,其方向指向亮度變化最大的方向,而其大小表示亮度的變化率。本文分別使用不同的微分算子對相同的圖像進行處理。從采用不同微分算子時并行邊緣檢測法的圖像分割效果圖中可以看出,相較于圖像背景,經邊緣檢測算子處理后,水果的邊緣輪廓相對清晰,實現了圖像分割的目的。。

算子類方法優缺點對比

基于圖論和聚類的圖像分割算法

基于圖論的圖像分割算法

基于一筆畫問題的方法是一種自頂向下的全局分割方法,其主要思想是將整幅圖像映射為一幅帶權無向圖,其中是頂點的集合,是邊的集合,圖像每個像素對應圖中一個頂點,像素之間的相鄰關系對應圖的邊,像素特征之間的相似性或差異性表示為邊的權值。將圖像分割問題轉換成圖的劃分問題,通過對目標函數的最優化求解,完成圖像分割過程。

基于聚類的圖像分割算法

聚類方法是將對象的集合分成由類似的對象組成的多個類的過程。聚類的思想可以應用到圖像分割中,將圖像中具有相似性質的像素聚類到同一個區域或圖像塊,并不斷迭代修正聚類結果,直至收斂,從而形成圖像分割結果,下面是具體聚類算法介紹。

基于深度學習的圖像分割算法

傳統的圖像分割技術主要依賴于圖像的表面信息,這在需要深入理解語義信息的復雜分割任務中顯得不足。然而,隨著深度學習技術的興起,特別是在卷積神經網絡(CNN)的推動下,計算機視覺領域取得了顯著進步。CNN 能夠有效利用圖像的深層語義信息,從而實現更精細的圖像語義分割。為了應對圖像分割領域日益增長的復雜性,研究者們提出了多種基于深度學習的方法,這些方法不僅提高了分割的準確性,還提升了效率,進一步擴大了圖像分割技術的應用領域。

DeepLab 系列模型是一類深度卷積神經網絡模型,主要特點是采用 atrous 卷積的技術,通過在卷積核中插入“孔”或“間隙”,允許卷積操作以不同的采樣率對輸入信號進行采樣。這種方法有效地控制特征圖的分辨率,擴大卷積核的感受野,從而捕獲更多的上下文信息。

圖像分割算法總結對比

圖像分割數據集

為了科學、一致地評價各類圖像分割算法的性能,需要使用標準的圖像數據集進行測試和對比。下表是部分廣泛使用的圖像分割數據集的總結。數據集分為3類分別是2D圖像、2.5RGB-D(顏色+深度)圖像和3D圖像并提供有關每個數據集特征的詳細信息。列出的數據集具有逐像素的標簽,可用于評估模型性能。

圖像分割評價指標

為了科學地評價圖像分割算法性能的優劣,往往需要使用統一的指標進行定量比較。下面是常用的評價指標的匯總表。

圖像分割工具

應用

醫學

分割是根據提取的特征(如顏色或紋理屬性)將圖像聚類成幾個連貫的子區域,并將每個子區域分類到預先確定的類中。分割也可以被視為圖像壓縮的一種形式,它是從圖像中推斷知識的關鍵步驟,在精密醫學中,計算機輔助診斷技術正在廣泛應用,特別是基于多種放射圖像模式如磁共振成像(MRI)、計算機斷層掃描(CT)或結腸鏡圖像。這些技術利用先進的算法和模型,能夠有效分析和解釋復雜的醫學影像數據,為醫生提供準確的診斷輔助,從而提高診斷的精確性和效率。在醫學圖像中使用圖像分割技術,可以更好地提取和顯示醫學影像中的相關信息。閾值分割法、邊緣檢測法是圖像分割中常用的分割方法。如下圖醫學圖像分割示例圖所示,使用閾值分割對醫學圖像進行增強。

自動駕駛

自動駕駛的一個關鍵問題是獲得車輛周邊環境的綜合理解,圖像語義分割是建立街道場景里語義實體(如汽車、行人、道路等)復雜關系模型的重要工具,為此自動駕駛成為圖像語義分割的重要應用領域。將深度學習應用到自動駕駛可以有效提高自動駕駛的安全性和對道路場景分割的準確性、快速性。自動駕駛需要的技術是多方面的,提高自動駕駛系統智能化程度的關鍵技術之一是具備對交通場景準確有效的認知,如下圖所示是使用圖像分割技術對交通場景下的圖像分割圖。

工業生產

圖像分割在鋼鐵生產等工業場景中應用前景廣闊。圖像分割在鋼鐵生產過程中用于輸送帶實時跑偏檢測、扒渣機器人鐵渣檢測等。采用基于深度學習的分割算法可以提取更加準確的皮帶邊緣,抗干擾能力強,適用多種復雜的工業環境。如下圖所示是使用圖像分割應用于扒渣機器人鐵渣檢測的示例圖。

遙感

隨著遙感技術的發展,高分辨率遙感圖像的獲取變得越來越便捷,高分辨率遙感圖像通常包含道路、水源、建筑、樹木、農作物、車輛、行人等地物目標類別豐富的細節信息,目前遙感圖像分割在土地利用、城市規劃、資源管理等領域中變得越來越重要。遙感圖像分割的目標是將圖像中的每個像素分配到相應的類別,以實現對地物的準確辨別和定量分析。如下圖是使用圖像分割對遙感圖像進行分割的示例圖。

圖像分割問題與挑戰

實時圖像語義分割:目前越來越多的實際應用要求在極短的響應時間內達到精確分割的結果,尤其在可穿戴計算領域。由于可穿戴設備微小和可移動的特性,當涉及到圖像處理時需要兼顧極高的圖像處理速度和處理精度。但現階段的實時語義分割仍不夠完善,方法大多不能滿足實時的需求。

弱監督或非監督語義分割:語義分割訓練集需要所有像素都有真值標注,尤其是以人工標注的方式,真值標注的生成是極度耗時耗力的,因此衍生出了弱監督或非監督的語義分割方法。然而目前這些方法的分割效果都不是很理想,因此需要進一步的研究。

三維場景的語義分割:盡管語義分割在一維、二維的數據處理上取得了極大的成功,但在三維數據上的發展缺極為緩慢,這其中有數據集獲取的困難,也有提取三維圖像語義信息的困難。

小尺寸目標的分割:小尺寸目標的分割不夠精準,盡管基于深度卷積神經網絡的方法顯著提高了分割精度,但由于卷積和池化操作導致信息丟失,小尺寸對象的分割仍然具有挑戰性。

復雜背景圖像分割:當圖像背景復雜時,具有辨別性的前景特征會受到周圍背景噪聲的干擾,使得識別準確率得不到保證。部分具有相似背景不同類別的圖像在區分時也會遇到問題,因此需要進一步研究。

光照變化:光照變化圖像中存在大量的噪聲,若不及時對圖像實施去噪等預處理,會影響圖像分割精度。由于現有的圖像分割技術無法高效地完成圖像目標物體邊界以及細微的毛發細節部位的精準分割,并且圖像分辨率的不斷提升使圖像中的光照變換變得更加復雜,使目前的圖像分割方法無法有效地完成圖像目標分割,因此,提出更加簡潔有效的光照變化圖像分割方法就變得尤為重要。

未來發展方向

創建更具挑戰性的數據集:目前,雖然已經創建了一些大規模的圖像數據集,但仍需要更具挑戰性的數據集,特別是包含大量對象和重疊對象的靜態圖像數據集。這將有助于模型更好地處理密集對象場景和現實世界中常見的對象重疊問題。現有的用于3D圖像分割的數據集通常規模較小且多為合成數據,因此,創建更大、更具挑戰性的3D圖像數據集將非常有價值。

構建可解釋的深度模型:盡管基于深度學習的模型在具有挑戰性的基準測試中表現良好,但如何解釋這些模型所學到的內容仍是一個問題。目前雖有技術可以可視化學習到的卷積核,但對模型的潛在行為或動態的具體研究仍不足。增強對這些模型理論方面的理解,有助于針對不同的應用場景開發更優化的模型。

構建內存高效模型:許多現代分割模型在推理階段需要大量內存。目前的研究多集中在提高模型準確性上,但為了適應如移動電話等特定設備,需要簡化網絡結構。可以通過采用更簡單的模型框架、應用模型壓縮技術或使用知識蒸餾技術,將復雜模型轉化為內存使用更高效的版本,以適應內存限制更嚴格的應用環境。

參考資料 >

simpleitk.simpleitk官網.2024-05-04

itk.org.ITK官網.2024-06-09

生活家百科家居網