模式識別(Pattern Recognition),是對表征事物或現象的各種形式信息,包括數值、文字和邏輯關系等,進行處理和分析的過程。它涉及描述、辨認、分類和解釋事物或現象,是信息科學和人工智能的重要組成部分。
模式識別的概念最早于20世紀20年代提出,20世紀30年代,費希爾(Fisher)提出的統計分類理論為統計模式識別提供了堅實的理論支撐。進入20世紀50年代,美籍華人傅京孫教授引領了結構模式識別的研究潮流。20世紀60年代,扎克(Zadch)提出了模糊集合理論,這為模糊模式識別的誕生奠定了理論基礎。在20世紀70年代初,中國緊隨全球步伐,中科院自動化所率先開展郵政編碼識別研究,揭開了中國模式識別研究的序幕。20世紀80年代的人工神經網絡和90年代的支持向量機等,逐漸發展成模式識別的主流技術。直至2006年,深度學習的興起為模式識別的廣泛應用注入了新的活力,為其發展奠定了堅實的基礎。
模式識別系統通常包括數據采集工具、預處理、特征提取與選擇、分類器設計和分類決策等五個階段。根據學習方式,模式識別分為監督模式識別和非監督模式識別等;按數據動態性,分為靜態和動態模式識別。模式識別的基本方法主要包括統計模式識別、知識模式識別、模糊模式識別、神經網絡模式識別等,其研究聚焦于模式類的緊致性、相似度、特征形成等問題,遵循奧卡姆剃刀原理、沒有免費午餐定理以及丑小鴨定理等理論。模式識別在醫療診斷、遙感和數學領域,具有廣泛的應用前景及應用價值。
相關概念
模式(pattern):客觀事物或現象常常被劃分為由相似但又不完全相同的個體組成的集合——類別,人們稱這些客觀事物或現象為模式,或將整個類別稱為模式。廣義上,存在于時間和空間中可以觀察的事物,如果可以區分它們是否相同或者相似,則可以稱之為模式。模式往往表現為具有時間或空間分布的信息,因此,將一類客觀事物或現象的時間或空間分布的信息稱為模式。
特征(feature):特征也稱為屬性,通常指樣本的某些可以用數值去量化的特征,如果有多個特征,則可以組合成特征向量(feature 向量)。樣本的特征構成樣本特征空間,空間的維數就是特征的個數,每一個樣本就是特征空間中的一個點。
分類(classification):分類是對個體客觀事物或現象的所屬類別做出的判斷或決定,在統計學理論中通常稱之為決策。
理論基礎
統計學習理論
統計學習理論是研究小樣本統計估計和預測的理論,它從理論上給出了經驗風險最小化準則成立的條件、有限樣本情況下經驗風險與期望風險的關系等問題,主要內容包括研究經驗風險最小化準則下統計學習一致性的條件、建立的小樣本歸納推理準則等方面。
貝葉斯決策理論
貝葉斯決策理論是概率理論和統計學中的一個基本方法,通過對某一事件相關的先驗知識和條件概率進行分析,估計事件發生的不確定性。貝葉斯推理是解決由觀察到的現象去推斷現象背后的規律的過程。
特征空間
特征空間是指在模式空間中對事物進一步抽象化,將事物映射為具有代表性的度量值,去除事物的冗余信息,并由一系列度量值組合成的空間。
歷史沿革
早期探索
模式識別的概念最早于20世紀20年代提出,初期研究主要集中在數學方法上。1929年,古斯塔夫·陶謝克(Gustav Tauschek)在德國獲得光學字符識別專利,標志著早期技術在光學和機械手段上實現模式識別的嘗試。同時,作為統計模式識別基礎的多元統計分析和判別分析在電子計算機出現前已被提出。
20世紀30年代,費希爾(Fisher)提出統計分類理論,為統計模式識別奠定了理論基礎。到了50年代,美籍華人傅京孫(K. S. Fu)教授引入結構模式識別,進一步擴展了其應用領域。
初步開展
20世紀50年代末期,羅森布拉特發明了感知器,這是一種簡化的數學模型,模擬人腦進行識別,并通過樣本訓練實現對未知類別的正確分類。1957年,周紹康通過使用統計決策理論方法解決模式識別問題,推動了從50年代末至60年代的研究快速發展。
學科形成
“模式識別”這個詞被廣泛使用并形成一個領域則是在20世紀60年代以后,并逐步發展成為一門綜合性學科,其研究內容涉及數學、機器學習、圖像處理、計算機視覺和人工智慧等多個領域。20世紀60年代扎克(Zadch)提出模糊集合理論,為模糊模式識別奠定了理論基礎。
1962年,納拉西曼提出了一種基于基元關系的句法識別方法。1966年由IBM組織在波多黎各召開了第一次以“模式識別”為題的學術會議,當時發表了52篇論文,方法多為模板匹配或統計決策,很多論文以文字識別為應用背景。中原地區在20世紀70年代初開始模式識別研究,最早是中科院自動化所開展郵政編碼識別研究。
20世紀70年代,幾本具有影響力的模式識別教材相繼出版,包括福永(Fukunaga)的《統計模式識別導論》(Introduction to Statistical Pattern Recognition)、杜達(Duda)和哈特(Hart)的《模式分類與場景分析》(Pattern Classification and Scene Analysis),以及傅京孫(K. S. Fu)的《句法模式識別及其應用》。1972年,第一屆國際模式識別大會(ICPR)的召開,標志著模式識別領域的正式形成。1974年,在第二屆國際模式識別大會上,國際模式識別協會(IAPR)開始籌建,并于1978年的第四屆大會上正式成立。
1979年,中國自動化學會成立模式識別與機器智能專業委員會,這是中國最早的人工智能相關學術組織。20世紀80年代,專委會組織了七次全國模式識別與機器智能學術會議,推動了該領域在中國的發展。
神經網絡興起
20世紀80年代人工神經網絡和90年代支持向量機,成為模式識別的主要方法。1982年和1984年,荷甫菲爾德發表了兩篇重要論文,深刻揭示出人工神經元,網絡所具有的聯想存儲和計算能力,進一步推動了模式識別的研究工作,短短幾年在很多應用方面就取得了顯著成果,從而形成了模式識別的人工神經元網絡方法的新的學科方向。
在手部生物特征識別方面,2000年日本醫學研究者科諾(Kono)首次提出使用手指中的靜脈血管進行身份識別,之后模式識別科研人員提出了多種特征表達模型,如細節點特征,即研究分叉點和端點,尺度不變特征變換;靜脈紋路特征,即研究平均曲率、最大曲率、線性跟蹤方法。
多年來,模式識別在理論和方法上得到了巨大的發展,一些技術已廣泛應用。特別是自2006年深度學習方法和深度神經網絡的提出,結合大數據和CPU并行計算技術,視覺感知如圖像分類、目標檢測和識別、行為識別等,以及聽覺感知如語音識別的性能得到了顯著提升,幾乎全面超越了傳統的模式識別方法。
近年發展
2009年,人們提出多視圖聚類的思路,通過多視圖聚類可以得到比單視圖聚類更準確的結果。層次聚類也一直有更新的特化應用,如在強調基于環境而行動的強化學習中,利用蒙特卡洛搜索樹中將樹的返回值帶入根,可以達到降噪和加速收斂的目的。
模式識別領域發展至今產生了大量的方法,而最流行的方式之一是深度學習,即基于深度神經網絡的方法,已成為整個人工智慧領域統治性的方法。在2012年大規模視覺分類競賽ImageNet中,深度卷積神經網絡(CNN)首次成功用于大規模圖像分類,將ImageNet分類精度相比前一年提升了10%以上。2012年以后,深度神經網絡被擴展應用到多種視覺任務上(分類、檢測、分割、行為識別等),新的模型和學習算法不斷被提出,性能不斷提升。
2018年,第24屆國際模式識別大會(ICPR)在北京召開。同一年,第一屆中國模式識別與計算機視覺大會召開,之后每年舉辦一屆。
2021年,第四屆中國模式識別與計算機視覺大會在廣東省珠海市海泉灣維景國際大酒店舉行。該大會由中國圖象圖形學學會(CSIG)、中國人工智能學會(CAAI)、中國計算機學會(中國計算機學會夏培肅獎)和中國自動化學會(CAA)聯合主辦,匯聚了國際模式識別和計算機視覺理論與應用研究的廣大科研工作者及工業界同行,共同分享中國模式識別與計算機視覺領域的最新理論和技術成果。
模式識別系統
典型的模式識別系統由數據采集工具、預處理、特征提取與選擇、分類器設計和分類決策5部分組成。
數據獲取
數據的獲取途徑或來源有很多種方式。例如可以通過傳統的問卷調查等形式獲取數據信息,或者通過網絡爬蟲軟件,按照實際需求自動抓取互聯網上的相關數據以及通過各種傳感器獲取數據。數據可以是溫度、濕度、文字、圖像和聲音等。
預處理
數據預處理可以有效地提高數據的質量,有利于提高模式識別和機器學習的性能。對由于信息獲取裝置或其他因素所造成的信息退化需要進行復原和去噪。對于離群點、不一致的值、重復數據及有特殊符號的值的也要進行相應的處理。
特征提取與選擇
在獲取了原始特征后,需要通過特征提取和選擇獲取生成有效特征。在保證識別精度的前提下,起到降維的作用,避免產生維數災難。
分類器設計
假設樣本集為,分別屬于個類別:。分類器設計就是建立函數模型,對未知類別的樣本進行判別分類的過程。其基本過程是采集樣本構建訓練集,建立判別函數,確定分類判別規則,確定分類函數機器相應的參數,利用判別函數對進行分類。同時,盡量保證所造成的錯誤率或損失最小。
分類決策
在特征空間中,用分類器設計確定的分類判別規則,將待識樣本歸為某一類別。
類型
按學習方式劃分
監督模式識別
在監督模式識別下,先確定好需要劃分的類別有哪些,并且能夠獲得定數量的類別已知的訓練樣本。在這種類別已知的情況下機器學習的過程稱為監督學習。
監督的模式識別方法又可分為參數法和非參數法兩類,其中參數法一般都是由統計學家提出來的,其判別效果的好壞依賴于樣本是否符合假設的統計分布;而非參數判別分析法多由實驗科學家或計算機模式識別專家提出,對樣本分布沒有特殊要求。在監督的模式識別中,經常將已知類別的樣本分為兩組,一組作為常規的訓練集,另一組則組成測試集,目的是用于檢測由訓練集樣本所得的判別模型的判別能力。在訓練中所得的正確判別率稱為識別率,而用測試集所得的正確判別率則稱為預測率。通常,預測率對模型好壞的判別比識別率更重要,這是因為測試集的樣本沒有參與建立判別模型,用它們得到的預測率更能反映模型的真實情況。
非監督模式識別
在非監督模式識別下,分類之前并不知道要劃分的類別有哪些,也不知道劃分類別的數目,并且沒有任何已知的樣本可以用來訓練。在這種情況下,根據不同樣本的特征進行分類,同一個種類的樣本從某個角度上看具有一定的相似性,不同的樣本之間差異性比較大。如果根據樣本特征向量中的不同特征去聚類,會得到不同的結果。
非監督模式識別有一個重要的特點:由于沒有類別已知的訓練樣本,在沒有其他額外信息的情況下,采用不同的方法與不同的假定可能會導致不同的結果,要評價那種結果更可取或者更符合實際情況除了衡量一些聚類性質的一般準則外,往往還需要對照該項研究的意圖和在聚類結果基礎上后續的研究來確定。
半監督模式識別
半監督模式識別介于監督模式識別和非監督模式識別之間,主要目標是讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能,使用海量的標記數據和未標記數據進行模式識別工作,它既使用了無監督特征學習類算法利用所有樣本(包含標記樣本和無標記樣本)學習出樣本的隱特征或隱含變量表示,又在此基礎上利用有監督分類器對無標記樣本所對應的隱特征進行分類,從而間接地實現目標任務。
按數據的動態性劃分
靜態模式識別
靜態模式識別指按照最大隸屬原則對模糊事物進行判斷歸類的一種模糊模式識別,亦稱直接模式識別。最大隸屬原則實際上是對人們頭腦中就模糊事物進行隸屬反映過程的數學概括。例如,企業領導在對人才的錄用做出定向決斷時,總是根據某人的特點,權衡其是負責后勤還是科研或者匯總、外向經營等方面比較合適。其中“比較合適”的概念就體現的隸屬度的大小,而“權衡的過程”就是比較隸屬度大小的過程,亦即按最大隸屬原則進行直接模糊模式識別的過程。
動態模式識別
動態模式識別指按照擇近原則對模糊事物進行判斷歸類的一種模糊模式識別,亦稱間接模式識別?!皳窠本褪侵副谎芯繉ο笈c其它標準參照物之間的相近或相似的程度。而測定這種相近或相似程度的度量指標就稱為“貼近度”。靜態模式識別是通過比較隸屬度或隸屬函數取值的大小來確定被研究對象應歸為哪類,這時識別模型是模糊的而被識別對象是確定的,但在許多情況下,被識別對象也是模糊的,這時用最大隸屬法則就不能達到判別分類的目的。
基本方法
統計模式識別
統計模式識別方法是應用最廣泛的一類模式識別方法。本質上,該類方法都是利用各個類的概率密度函數、后驗概率等概念進行分類識別的。確定性樣本一般采用確定性的方法如代數幾何分類方法等來進行模式識別,隨機樣本或按一定的概率分布的樣本則采用托馬斯·貝葉斯決策分類的方法來進行模式識別。它們都是將樣本轉換成多維特征空間中的點,根據特征空間中點的分布情況確定類邊界,設計相應的分類決策規則或判決函數,來進行分類決策。
結構模式識別
在模式識別中,許多實際問題是難以用統計模式識別來解決。1970年,美籍科學家傅京孫最早研究結構模式識別,著眼于對待識別對象的結構特征的描述。其基本思想是把復雜的模式分解為較簡單的子模式的組合,子模式再分解為更簡單的子模式的組合,最終得到一個符號串、樹和圖描述。在底層的最簡單的子模式稱為模式基元。其主要理論是形式語言和自動機。結構模式識別的優點是由簡至繁,反映模式的結構特征。缺點是噪聲對抽取特征基元有較大的影響。
模糊模式識別
在傳統的集合論中,元素和集合是要么屬于、要么不屬于的關系,兩者必居其一,而且二者僅居其一。在模糊集合論中,元素是以一定的程度(隸屬度)屬于某一個模糊集合,也可以屬于多個模糊集合。模糊集合主要用來描述不精確的、模糊的概念。模糊數學就是建立在模糊集合基礎之上的數學分支。
模糊模式識別是利用模糊數學的理論和方法來分析和解決模式識別問題,其基本思想是首先將模式類看成模糊集合,將模式的屬性轉化為對于模糊集合的隸屬程度,然后利用隸屬函數、模糊推理和模糊關系進行分類識別。模糊模式識別利用模糊技術來設計機器識別系統,可以更廣泛、更深入地模擬人腦的思維過程,從而對客觀事物進行更為有效的分類和識別。模糊模式識別方法已在工業、農業、軍事、醫學、管理科學、信息科學和工程技術等學科和領域中發揮著非常重要的作用。
神經網絡模式識別
人工神經網絡簡稱神經網絡,是由大量簡單的基本單元(稱為神經元)相互連接而構成的復雜網絡系統。其中,每個神經元的結構和功能比較簡單,而構成的系統可以非常復雜。
人類感知外界信息依靠的生理基礎是神經系統。人工神經網絡就是在現代生物學研究人腦組織所取得成果的基礎上提出的,用以模擬人類大腦神經網絡的結構和行為。人工神經網絡具有生物神經網絡的某些特性,在自學習、自組織、聯想記憶和容錯方面具有較強的能力。因此,人工神經網絡具有用于模式識別的理論和結構基礎,可以處理一些環境信息十分復雜、背景知識不清楚、推理規則不明確的模式識別問題。實際上,模式識別是人工神經網絡公認的最成功的應用領域之一。
主要算法
基于統計的模式識別
KNN法及其衍生法
KNN法,亦稱K最鄰近法,即未知樣本的類別由其k個近鄰的類別所決定。若近鄰中某一類樣本最多,則可將未知樣本亦判為該類。
在多維空間中,各點間的距離通常規定為歐幾里得距離。樣本點和樣本點j間的距離可表示為。
K最鄰近法因其簡單易用而在多個領域得到了廣泛應用。在人臉識別領域,在云環境中使用Hadoop和KNN算法可實現人臉圖像的標簽和分類;在文字識別領域,基于聚類的改進KNN算法在對文本進行特征提取之后,根據DBSCAN把文本分成幾類,再用改進的KNN算法對這幾個類進行分類;在醫學領域,KNN算法可以較好地識別出MRI圖相當中的腦白質、脊髓、灰質三個部分的圖像。
主成分分析法
主成分分析法(principal component analysis,PCA)是一種古老的多元統計分析技術,其目的是將數據降維,以排除眾多信息共存中相互重疊的部分,把原來多個變量組合為少數幾個互不相關的變量但同時又盡可能多地表征原變量的數據結構特征而使丟失的信息盡可能地少。
設第個主成分的方差貢獻率為,設前個(q≤k)主成分的累積方差貢獻率為:
。
主成分分析法被廣泛應用于多指標評價中,如企業經濟效益綜合評價、上市公司財務分析、學生成績分析與評價等。這種方法能夠將多個相關指標轉化為少數幾個相互獨立的綜合指標,從而簡化評價過程并提高評價的客觀性。在多元質量控制領域,主成分分析法用于發現異常值和進行質量穩定性控制,從而有效地監控產品質量。
多重判別矢量法
多重判別向量法是模式識別中使用較為廣泛的一種線性映射,這種線性映射使數據中各類別間分離性加強,它使用一組判別矢量來完成的。
設數據中模式矢量有個類別,對應有個互相獨立的標準化矩陣,其中。第類中第個樣本向量(由個特征變量構成)為。由第類樣本構成的標準化矩陣為;為第類的樣本數。
在雷達技術應用中,多重判別分析被用于距離向多干擾目標的鑒別,以及雷達目標距離剖面像的識別。這些應用主要解決了在長基線雷達組網背景下,鑒別過程計算復雜度高的問題,并顯著提高了正確識別率。在經濟預測領域,多重判別分析被用于上市公司財務困境的預警研究,通過對財務指標進行綜合分析,該方法能夠更全面、可靠地預測公司的財務狀況,從而為投資決策提供支持。
線性判別分析法
線性判別分析是一種簡單的非樸素托馬斯·貝葉斯分類器,它假設每個類別所對應的正態分布具有相同的協方差,即。如下圖,兩個類別的數據分別服從兩個協方差矩陣相同但均值不同的二維高斯分布。
在金融領域,線性判別分析法被用于建立信用評價模型,以對上市公司進行分類。在能源領域,LDA用于降維處理,以提高電力負荷預測模型的運行速度和預測精度。
Fisher判別分析法
若整個樣本集中僅有兩個類別,則多重判別矢量法只能產生一個判別矢量,此即為Fisher判別矢量。但是,欲將數據投影到判別平面上,必須選擇一個第二矢量。薩蒙(Sammon)提出了解決此問題的一種算法,首先用多重判別矢量法求出Fisher判別矢量(此時的秩數為,故僅能得一個非零的本征值,其相應的本征矢量即為Fisher判別矢量)。
Fisher判別分析法被用于隧道圍巖分類,這表明它可以有效地處理具有復雜特征空間的問題。此外,Fisher判別分析法還被應用于潛在滑坡的判識,進一步證明了其在工程安全評估中的實用性。
基于深度學習的模式識別
非線性映射法
非線性映射法可使多維圖象映照到二維,映照中盡可能保留共固有的數據結構。
若樣本集標準化矩陣表示為,則X映照至二維空間的結果Y可表示為。
在經濟學領域,非線性映射方法被用于建立預測模型,以預測經濟指標的未來走勢。這種方法通過非線性映射給出松馳迭代求解方法,展示了其在經濟預測中的可行性。非線性映射法在處理高維數據時,能夠有效地解決“維數災難”問題,通過降維技術簡化數據結構,從而提高數據分析的效率和準確性。
基于聚類算法的模式識別
K-均值聚類
K-均值聚類(即K-means)算法是著名的劃分聚類分割方法。劃分方法的基本思想是給定一個有N個元組或者記錄的數據集,分裂法將會構造K個分組,每個分組就代表一個聚類,K K-means算法的工作原理為首先隨機從數據集中選取K個點,每個點初始代表每個簇的聚類中心;然后計算剩余各個樣本到聚類中心的距離,將它賦給最近的簇;接著重新計算每一簇的平均值,整個過程不斷重復,如果相鄰兩次調整沒有明顯變化,則說明數據聚類形成的簇已經收斂。 K-均值DBSCAN在金融服務行業中有著重要應用,特別是在銀行客戶細分和分類方面。通過對客戶進行有效的分類,銀行可以更好地理解其客戶群體,從而提供更加個性化的服務。K-均值聚類算法在圖像處理方面也有應用,利用K均值算法進行圖像分割,可以增進對圖像內容的理解,分割后的圖像可進一步用于機器視覺、目標識別等領域。 層次聚類算法是通過將數據組織為若干組并形成一個相應的樹來進行聚類的。根據層次的形成是自下向上還是自上向下,層次DBSCAN可以進一步分為凝聚型和分裂型。一個完全層次聚類的質量由于無法對已經做的合并或分解進行調整而受到影響,但是層次聚類算法沒有使用準則函數,它所含的對數據結構的假設更少,所以它的通用性更強。 層次聚類算法在復雜網絡分析中,用于發現網絡中的社團結構,有助于更好地理解網絡的內部結構。在天體識別與分類方面,層次聚類算法所代表的無監督自動化分類有望能夠幫助天文學家搜尋未知的天體和天文事件類型。 決策樹算法是一種逼近離散函數值的方法,從本質上來說,就是通過一系列規則對數據進行分類的過程,可以分為生成和剪枝兩部分。 在客戶關系管理方面,決策樹算法可以利用商業銀行提供的客戶信息和銀行業務信息等數據,通過客戶存款情況,研究忠實客戶的特征,以幫助銀行留住客戶并最大化客戶價值。決策樹算法也被應用于智能導學系統中,對學習者進行分類,并應用不同的教學計劃。 隨機森林(Random 中國森林資源)或隨機決策森林是一種用于分類、回歸和其他任務的集成學習(系綜 learning)方法,一個隨機森林是由多棵決策樹組成的,其工作原理是隨機選擇在同一訓練集的不同數據樣本上創建決策樹,從每棵樹上得到預測,并通過投票的方式選擇最佳解決方案。隨機森林的目的是降低方差,這是以小幅增加偏差和損失一些可解釋性為代價的,但一般來說會大大提升最終模型的預測能力。對于分類問題,按照多棵分類樹投票決定最終分類結果;對于回歸問題,由多棵樹的預測值的均值決定最終預測結果。 在電力用戶信用評價中,隨機森林算法可以根據電力用戶的一些基本信息對用戶信用等級進行的合理劃分,并達到理想的效果。在銷售預測中,利用隨機森林的集成思想通過隨機重組將原始的一維預測變量重組為高維變量,并將輸出求和值作為最終預測,以解決銷售預測歷史數的據稀疏性與波動性。 模式類緊致性主要是指樣本的分布是否存在相互混合或邊界線很復雜的現象。為了能在某個空間中進行分類,通常假設同一類的各個模式在該空間中組成一個緊致集。從這個緊致集中的任何一點可以均勻地過渡到同一集中的另外一點,而在過渡途中的所有各點都仍然屬于這個緊致集即屬于同一模式類。此外當緊致集中各點在任意方向有某些不大的移動(相應于被觀察現象有某些微小的變形)時它仍然屬于這個集合。 下圖表示了兩類樣本在空間中的3種分布情況。圖a緊致性較好,樣本容易區分,是線性可分。圖b緊致性一般,分界面比較復雜,但樣本可以分開,是非線性可分。圖c緊致性非常差,無法將它們完全正確分類。 同類事物屬于相同類別是由于某些屬性是相似的,分類就是根據事物之間的相似程度進行劃分的。描述樣本點之間相似性的函數有相似系數和距離函數兩種。 已得到廣泛應用的相似性度量是在空間中定義的某種距離。給定一個輸入樣本集合,用D維空間中的一個點表示某個樣本,兩個樣本和之間的相似性度量應該滿足以下要求: (1)相似性度量應該為非負,即。 (2)樣本本身之間相似性度量應該為最大。 (3)相似性度量應滿足對稱性,即。 (4)在模式類滿足緊致性條件下,相似性應該是點間距離的單調函數。 特征是決定相似性與分類的關鍵。底層特征是靠近原始數據輸入的一層,該層直接受到信息源物理特性的影響,人的視覺系統會首先提取圖像的亮度、顏色等信息,形成直線、邊緣等一系列簡單的底層特征;在底層特征的基礎上,視覺系統對這些底層特征進行組合抽象,形成如燈、輪子、窗等中間層特征;在中層特征的基礎上,視覺系統對中層特征進一步進行組合抽象,形成能夠表示車輛的特征。基于深度學習的方法就是采用多層神經網絡逐層抽取圖像特征的方法,它獲得了具有良好判別能力的特征,極大地促進了模式識別領域的發展。 從輸入的原始數據中直接得到合適的特征往往需要復雜的非線性運算,直接找到特征提取方法十分困難,可以從生物的視覺信息處理系統中尋求啟發。在動物和人的視覺神經系統中,存在對特定特征起反應的神經元,形成由簡單到復雜逐層提取特征的結構。以人的視覺系統識別汽車為例,并將特征粗略地分為底層、中間層、高層3個層級,描述逐層提取特征的過程。 奧卡姆剃刀(Occam's Razor)原理是由14世紀邏輯學家、圣方濟各會碩士奧卡姆的威廉(William of Occam)提出的一個原理。該原理簡稱為“如無必要,勿增實體”(在多種等價物和多種實現方法中提倡選擇最簡單的模型或假設,盡量避免產生超出解釋、觀察所嚴格需要的更為復雜的理論),即盡量不要把問題復雜化,要盡力把沒用的、會引起問題復雜化的因素剔除掉。 1997年,沃爾珀特(Wolpert)和Macerday提出了沒有免費的午餐定理(No Free lunch,NFL)。該定理指出,沒有最好的算法,每種算法總有它的優勢和缺陷。NFL定理可以簡單表述為:對于所有可能的問題,任意給定兩個算法A和A',如果A在某些問題上表現比A'好(差),那么,A在其他問題上的表現一定比A'差(好),即任意兩個算法A、A'對所有問題的平均表現度量是完全一樣的。該定理隱含指出,任何一種分類算法甚至都不比搜索空間的線性列舉或者純隨機搜索算法更優。 20世紀60年代,模式識別研究的鼻祖之一、美籍日本學者渡邊慧證明了“丑小鴨定理”。這個定理指出“丑小鴨與大天鵝之間的區別和兩只白天鵝之間的區別一樣大”,即世界上不存在分類的客觀標準,一切分類的標準都是主觀的。 維度約減:維度約減也稱為降維。由于處理的樣本數據可能是高維的,不同的維度中的數據存在一定的相關性,有的維度對分類沒有多大作用,加上計算機的速度和存儲容量畢竟是有限的,所以,對于給定的數據,通常要進行特征提取,即進行特征選擇或變換,實現數據降維,以便進行高效的模式識別。 學習與分類階段:學習階段就是實現從大量的樣本中歸納出同類樣本的共同特征,形成類別判定的特征量化標準,構成分類器。分類階段就是對待識別樣本依據特征量化標準進行歸類,確定樣本所屬類別。 相似性基礎:樣本間的相似性是模式識別能夠得以進行的基礎,“相似”并不意味“相同”,被識別為同一類的樣本只是被認為它們是相似的,模式識別可克服一定的噪聲完成樣本分類。即使被識別的對象產生的樣本存在一定的形變或其他失真的描述,模式識別系統也可能仍能正確識別,因為樣本學習訓練起到的是一種內插作用。但對于未出現的樣本,模式識別系統只能給出一個類別預測。至于類別是否與之相符,仍需人類專家加以確認。 不可識別現象:模式識別系統的設計不管有多準確,效率有多高,都可能存在不可識別或被拒絕識別的對象或樣本。 過程不確定性:模式識別過程是一個存在不確定性的過程,因為其分類器是根據有限數據設計的不可能包括樣本的所有可能分類情況,因此,識別的結果只能在一定的概率或信度上表達了事物所屬的類別,有時可能會出現錯誤。 在語音識別中,模式識別主要研究不同語言的識別問題,可以將不同人所講的話轉變成文字信息。模式識別技術上采用的辦法是先用不同類型的傳感器將光、聲信號轉變成電信號,用計算機對電信號進行處理,再用與已有模式比較的辦法(例如統計法、結構分析法等),確定電信號所代表的原信息的模式。利用基因算法訓練連續型馬爾可夫模型的語音識別方法現已成為語音識別的主流技術,該方法在語音識別時識別速度較快,也有較高的識別率。 各種形式的字符與文字識別是模式識別的另一個典型的應用,包括印刷體的光學字符識別(OCR)、手寫體數字識別、手寫體文字識別等。 單字識別是OCR的基礎,漢字識別首先需要進行特征提取,通常分為數量特征和結構特征。數量特征通過對圖像進行統計計算,如多方向投影后的像素密度;結構特征則根據漢字筆畫結構提取特征點并編碼為數字特征。每個字通過特征向量表示,識別過程即在所有可能的字中匹配當前樣本,從而判斷具體字符。這些方法被廣泛應用于文檔處理、表單識別、電子檔案管理等領域。 指紋識別是模式識別領域中使用最早,也是最為成熟的生物鑒定技術。指紋識別技術通過采集指紋圖像(手指表面脊和谷的映像組合),并對圖像進行處理以提取不同的特征來識別獨一無二的指紋。根據提取的特征不同,可以將指紋識別方法分為圖像統計法、紋理匹配法、細節特征法和汗孔特征法,其中主流方法是細節特征法。細節特征包括指紋的脊終點和分叉點信息。細節特征法匹配準確度高,匹配難度適中,在網絡安全、金融機構、醫療機構應用廣泛并且發展前景廣闊。 在醫療診斷中,模式識別可以應用于心電圖、心音、多普勒信號、染色體和DNA序列等方面,以此來作為判斷疾病的基礎。心電圖反映的是人體上電勢的變化,醫生根據病人的心電圖與正常人的心電圖進行比較,查找其中存在的差異。這樣的識別過程可以幫助醫生快速地找到疾病的原因或部位以此來進行針對性診斷。醫院內的模式識別應用十分廣泛,已成為醫生診斷過程中的必備手段。 遙感是在衛星的輔助下,監測地球上的各種現象并進行分析,對未來的狀況進行預測,對導致的原因進行分析。在氣象衛星的輔助下,氣象學家就能很好地預測熱帶氣旋,對其是否會形成強颶風進行判斷,政府可根據相關預測情況來決定居民是否需要搬離,以此來降低颶風帶來的損失。但是天氣預報也存在不準確的情況,主要是不完善的識別系統不能準確分析大氣云層現象,最終導致誤判。這就需要相關研究人員深入研究遙感方面的識別問題,提升天氣預報的準確性,將其帶來的損失降到最低。 為實現模式識別的可解釋性和魯棒性,未來的發展方向是結合統計和結構、知識實現對模式、感知場景和行為的生成表示,如結構化概率密度模型、概率知識圖等,這樣的表示模型對學習和推理算法都會提出更高的要求。圖神經網絡作為一種結合統計與結構的新型方法,由于其強大的上下文融合與學習能力,正在迅速成為一種主流的結構模式識別方法。 相比于深度神經網絡監督學習,模式識別未來會朝著小樣本、無監督、弱監督、多模態協同學習、在線自適應等方向發展,最終實現類人終生學習,但在計算上如何實現還有待探索。在智能游戲中比較成功的強化學習是一種類人學習方式,是自我學習方式的一種,對類人終生學習有所啟發,但其收斂性的理論保證和收速度也還存在不足。 模式識別的目的是對識別對象和感知場景的結構理解,而不只是分類或賦予概率置信度。對可靠性和魯棒性要求高的應用場合(如醫療診斷、無人駕駛、空中機器人自主決策),可解釋和可理解的模式識別方法非常重要,因為機器識別不能保證100%正確,不能解釋的識別結果難以讓人接收。隨著結構模式識別理論方法的發展,未來可解釋的模式識別將會越來越受到重視并取得重要進展。 一般來說,基于可解釋的表示模型和類人學習,模式識別系統在結構理解、小樣本學習、在線自適應等方面的能力將越來越強,開放環境下的魯棒性和可靠性越來越高,將促進已有應用的性能提升和應用擴展,并催生一些新型模式識別應用,如機器人環境感知、智能駕駛、空中機器人、盲人視覺輔助、醫療診斷、手術導航、智能教育機器人等。 機器學習是指計算機從已知的經驗數據集中提煉并學習一些規律,然后將學習到的規律應用在未知的新數據上進行預測,并不斷改變自身以提高在未知數據上的性能表現的方法。 模式識別是指對表征事物或現象的各種形式的信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程。 參考資料 > 中科院自動化所副所長劉成林:模式識別研究現狀與趨勢.微信公眾平臺.2024-04-13 PRCV2021.第四屆中國模式識別與計算機視覺大會.2024-04-13層次聚類算法
基于監督學習的模式識別
決策樹
隨機森林
基本問題
模式類緊致性
相似和等價
特征的形成
基本準則
奧卡姆剃刀原理
沒有免費午餐定理
丑小鴨定理
特點
評價指標
應用
語音識別
文字識別
指紋識別
醫療診斷
遙感
發展趨勢
感知場景等的生成表示
類人終生學習
可解釋的模式識別
促進模式識別應用擴展
相關對比