光學字符識別(Optical Character Recognition,OCR)技術,是指利用如掃描儀或數碼相機等電子設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。
該技術的概念由德國科學家古斯塔夫·陶謝克(Gustav Tauschek)于1929年最先提出,緊接著美國科學家亨德爾(Handel)提出利用光電轉換方式對文字進行識別的想法。20世紀六七十年代,世界各國研究者開始研究光學字符識別技術,初期研究主要集中于數字0至9的識別。到了20世紀70年代,中國逐漸開展對于光學字符識別的研究,同時期日本的學者也開始漢字識別的研究。光學字符識別在工業界的應用也十分廣泛。在21世紀初期,楊立昆(Yann LeCun)將基于卷積神經網絡的手寫體數字識別系統應用于銀行支票的數額識別,這個系統在2000年左右已經處理了美國全部支票數量的10%~20%。
傳統OCR識別系統的作業流程分為圖像輸入、預處理、文字識別、版面還原、后處理及校對等多個步驟。光學字符識別方法包括圖像二值化、連通域分析、特征提取與神經網絡結合法等,涉及模塊匹配算法、EAST等算法。其識別指標有拒識率、誤識率、識別速度、用戶界面的友好性,產品的穩定性,易用性及可行性等,光學字符識別技術廣泛應用在文檔處理及信息檢索、港口作業、內部審計等領域。
歷史沿革
萌芽階段
光學字符識別的概念最早由德國科學家古斯塔夫·陶謝克(Gustav Tauschek)于1929年提出,并申請了相關專利,緊接其后,美國科學家亨德爾(Handel)提出了利用光電轉換方式進行文字識別的構想,為OCR技術的發展奠定了理論基礎。
到了1950年,隨著技術革命的快速推進,數據量不斷增加,電子數據處理的重要性日益凸顯。當時,數據主要通過穿孔卡輸入,最初由手工處理。然而,處理日益增多的數據亟需一種經濟高效的替代方案來代替繁瑣的人工處理。與此同時,機器讀取技術逐漸成熟,并開始在商業應用中展露頭角。因此,1950年代中期,OCR機器開始進入大規模生產階段。在大規模生產之前,第一臺真正的OCR機器于1954年安裝在美國雜志《讀者文摘》上。該設備用于將打字的銷售報告轉換為計算機可讀取和搜索的穿孔卡片。盡管當時的技術水平尚不足以只提取最相關的數據,需要讀取整個文檔,但這標志著OCR技術的初步商業應用。
大規模生產與商業系統
為了克服設備笨重和昂貴的問題,人們開始廣泛開發和使用OCR相關技術,設計了簡化字體以便更容易轉換為數字可讀文本。大衛·夏普德(David Shepard)創造的OCR-7B字體即是其中之一,該字體至今仍在金融行業中作為信用卡和借記卡的標準字體使用。20世紀60年代,包括美國、英國、加拿大和德國在內的多個國家的郵政服務開始使用OCR技術來大大加快郵件分揀速度。1960年至1965年間出現的商業OCR系統可稱為第一代OCR,這一代系統使文檔處理過程中的最初幾個步驟得以自動化。然而,第一批設備可讀取的符號和字母數量仍然非常有限。
20世紀六七十年代,世界各國開始有光學字符識別技術的研究,初期多以0~9的數字的識別方法研究為主。例如,印刷文字的郵政編碼識別系統,通過郵政編碼的識別,大大提高郵件分工的效率。IBM是最早對印刷體漢字識別進行研究的公司,1965年,IBM在紐約世界博覽會上展出了首款OCR產品——IBM 1287,并于第二年發表了第一篇關于漢字識別的文章,采用模板匹配法識別了1000個印刷體漢字,使得光學字符識別技術開始應用于傳媒、出版行業。
OCR在各領域的發展使得人們將更多的注意力轉移到商業方面。20世紀70年代,?雷蒙德·庫茲韋爾成功推出了第一臺能夠將印刷品翻譯成口語的商用閱讀機——庫茲韋爾閱讀機(Kurzweil Reading Machine),該設備通過光學字符識別和文本語音轉換軟件來播放印刷文本,使得人們對盲文的依賴程度因它的出現而減弱。
發展應用階段
20世紀70年代,OCR軟件的功能較為有限,只能使用特定的字體和大小。20世紀70年代初日本的學者也開始了漢字識別研究,全世界第一個實現手寫體郵政編碼識別的信函自動分揀系統就是由日本東芝研制的,之后日本電氣公司也推出了同樣的系統。到了1974年,信函的自動分揀率達到92%左右,并且廣泛地應用在郵政系統中,發揮著較好的作用。1977年,東芝綜合研究所研制的可以識別2000個單體印刷漢字的OCR識別系統。
中國在OCR技術方面的研究工作起步較晚,直到70年代末才逐漸開展了對于光學字符識別的研究。中國在1986年推出“863”高新技術研究計劃,致力于OCR技術的發展,標志著漢字識別研究的實質性階段。1989年,清華大學率先推出了中國第一套中文OCR軟件——清華文通TH-OCR1.0版,至此中文OCR正式從實驗室走向了市場。
圖像識別是深度學習最早嘗試的應用領域。在1989年,LeCun等人發表了關于卷積神經網絡的相關研究成果,這些成果在手寫數字識別任務上取得了當時世界上最好的結果,并廣泛應用于各大銀行支票的手寫數字識別任務中。進入20世紀90年代,OCR軟件的功能變得更為強大,可以識別幾乎所有字體以及嚴重退化的文件影像,該技術隨著歷史報紙的數字化而得到進一步的發展。
標準成熟階段
光學字符識別在工業界的應用也十分廣泛。在21世紀初期,楊立昆(Yann LeCun)將基于卷積神經網絡的手寫體數字識別系統應用于銀行支票的數額識別,這個系統在2000年左右已經處理了美國全部支票數量的10%~20%。
國際文檔分析與識別大會(international conference on document analysis and recognition,ICDAR)于2003年大會設立“Robust Reading Competitions”,該競賽主要評測和檢驗自然場景、網絡圖片、復雜視頻文本自動提取與智能識別最新技術的性能,并設立了豐厚的獎金。該競賽極大地促進了OCR技術的發展,已經成為OCR技術研究進展重要的國際賽事及標準。由于競賽強大實際應用性、高技術難度、諸多科研院校、科技公司都參與其中。
2012年,百度集團將深度學習技術成功應用于自然圖像OCR和人臉識別等問題上,并推出相應的移動搜索產品和桌面應用。從2012年的ImageNet競賽開始,深度學習在圖像識別領域發揮出巨大影響,在通用圖像分類、圖像檢測、光學字符識別、人臉識別等領域,深度學習發揮出巨大影響。2012年4月,谷歌發布了一款名為谷歌眼鏡(Google Project Glass)的拓展現實眼鏡,這是一款手機拍照識別程序,真正能佩戴的谷歌眼鏡能識別出大都會藝術博物館的76000件不同藝術作品。同時谷歌也將光學字符識別技術用在了谷歌地圖的開發中,該數字識別系統可以從谷歌街景圖中識別任意長度的數字,在SVHN數據集上可以達到96%的正確率。到2013年為止,該系統已經幫助谷歌抽取了超過1億個門牌號碼,加速了谷歌地圖的制作過程并節省了巨額的人力成本。
2020年9月28日,在中華人民共和國工業和信息化部、北京市人民政府、國際電信聯盟(ITU-T)指導的2020 AIIA人工智能開發者大會上,主辦方正式發布國內首份智能文字識別(OCR)能力測評與應用白皮書。該白皮書從OCR發展背景、技術沿革、產業發展現狀、技術標準化、發展趨勢等多個維度,對中國OCR產業進行了梳理,推動OCR技術產業化發展。
工作原理
OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計算機,然后由計算機取出每個文字的圖像,轉換為相應的文本編碼。計算機接收的是文稿的數字圖像,其圖像上的文字可能是印刷文字,也可能是手寫文字,然后對這些圖像中的文字進行識別。對于印刷體字符,首先采用光學的方式將文檔資料轉換成原始黑白點陣的圖像文件,再通過識別軟件將圖像中的文字轉換成文本格式,以便文字處理軟件的進一步加工,其中文字識別是OCR的重要技術。
OCR技術原理主要分為傳統OCR和深度學習OCR兩個流派。
傳統OCR
OCR識別系統的作業流程分為資料的掃描錄入、圖像處理、版面分析、文字識別、縱橫向校對與版面還原等步驟。
圖像輸入
圖像輸入就是將要處理的檔案通過光學設備輸入到計算機中。在OCR系統中,識讀圖像信息的設備稱為光學符號閱讀器,簡稱光符閱讀器。它是將印在紙上的圖像或字符借助光學方法變換為電信號后,再傳送給計算機進行自動識別的裝置。一般的OCR系統的輸入裝置可以是掃描儀、傳真機、攝像機或數字式照相機等。
預處理
圖像預處理是必要的步驟,目的是優化圖像以減少噪聲并提高對比度,從而使文本更易于識別。不同的圖像格式有不同的存儲格式與壓縮方式,預處理主要包括二值化、噪聲去除、傾斜較正等,具體如下:
二值化:對攝像頭拍攝的圖片,大多數是彩色圖片,由于彩色圖片所含信息量過于巨大,需要先對彩色圖進行處理。對于圖片中的內容可以將劃分為前景與背景,定義前景信息為黑色,背景信息為白色,使圖片只包含黑色的前景信息和白色的背景信息,通過對圖片的二值化處理,可以提升識別處理的效率和精確度。
噪聲去除:由于待識別圖片的品質受限于輸入設備、環境以及文檔的印刷質量,在對圖片中的字符進行識別處理前,需要根據噪聲的特征對待識別圖片進行去噪處理進而提升識別處理的精確度。
傾斜較正:由于掃描和拍攝過程涉及人工操作,輸入計算機的待識別圖像或多或少都會存在一些傾斜,在對圖像中印刷體字符進行識別處理前,就需要進行圖像方向檢測,并校正圖像方向。
版面分析:識別文檔中的文本區域、標題、頁眉頁腳等,并將文檔圖像分割成可以單獨處理的部分。
字符切割:行字切分是將大幅的圖像先切割為行,再從圖像行中分離出單個字符的過程。由于拍照條件的限制,經常造成字符粘連、斷筆,因此在對單個字符進行識別之前,需要進行字符切割。
文字識別
早期為模板匹配,模式匹配階段是使用事先訓練好的模型或模式庫,將提取的特征與已知字符形狀進行比較和匹配,這個過程會涉及模式識別算法、機器學習模型,如神經網絡、支持向量機等。后來以特征提取法處理文字的位移、筆畫的粗細、斷筆、粘連、旋轉等,識別精度大為提高。
版面還原
版面恢復的需求源于一部分字符識別系統對于源文件版面的破壞。通常,人們希望識別后的文字,仍然保持原文檔的排列樣式,在段落、位置以及對應的順序均保持不變的前提下,輸出到word文檔、pdf文檔等,保證實現這一目標的過程就叫版面恢復。
后處理、校對
版面校對:將識別結果與原始圖像進行比較,確保文本塊和段落的布局準確無誤。
人工校對:在自動校對基礎上,進行必要的人工審查和修改,以確保最終輸出的文本質量。
深度學習OCR
在主流的深度學習OCR中,工作流程通常包括文本檢測和文本識別兩個主要階段。首先,文本檢測階段負責從復雜的圖像背景中定位文本的位置和邊界,這為后續的文本識別做好準備,這個階段主要分為基于回歸的方法和基于分割的方法。接著,在文本識別階段,技術會分析檢測到的文本區域,將圖像中的文本轉換為機器可讀的字符序列,這個階段通常采用CRNN和基于注意力機制的方法。此外,一些先進的端到端識別算法嘗試將這兩個階段融合到單個網絡模型中,這樣可以直接從整個圖像中識別出文本,簡化了傳統的多階段處理流程,雖然這可能在某些情況下犧牲一定的精度,但能顯著提高處理速度。
相關技術
圖像處理技術
圖像二值化
圖像的二值化處理,又稱為灰度閾值變換,利用它可對一幅灰度圖像進行轉換,使之變成黑白二值圖像。這種圖像具備數據量不大,僅黑色和白色兩種顏色,更為簡單,可將目標區域的輪廓更好地突顯出來等特征。二值化處理的第一步就是要定義一個灰度值,也就是值閾值可以作為一條分割線;如果灰度圖像中的圖像里某一個像素點的灰度值比這個閾值更小一些,那么,就把這個點的灰度值設成0,如若不然,就設成1,繼而達到二值化處理的效果。
連通域分析
連通域一般是指圖像中具有相同像素值,且位置相鄰的前景像素點組成的圖像區域,連通域分析是指將圖像中的各個連通區域找出并標記。圖像分析中最重要的是連通域的特征數據提取,標記圖像本質上只是一個輔助圖像數據結構。如果在第一次掃描中直接提取特征數據,那么第二次掃描就可以省去,兩次掃描就可以減少到單次掃描。連通域分析算法可以處理位流圖像,且不需要儲存標簽圖像,只需要少量內存,這些特性使它們適合在FPGA(FPGA)上實現,完成圖像實時高速處理。
投影分析
投影分析是分析截平面與投影面的相對位置,從而弄清截交線的投影特性。典型相關分析和偏最小二乘被稱為相關投影分析算法,典型相關分析的思想是在兩組變量中各找到一個線性組合,組合成一個綜合指標來代表這組隨機變量,這樣的線性組合要使得這兩個典型相關變量的相關性最大,從而得到一對典型相關變量。偏最小二乘的特征提取方法被人們稱為“第二代多元統計分析技術”,主要目的在于降維,與其他降維方法不同的地方在于它是一個多元分析方法,在降維過程中綜合考慮了多因變量和多自變量的潛在信息,而其他的降維方法往往只考慮到單個的自變量與因變量之間的潛在信息,因此偏最小二乘能夠最大化地抽取出因變量與自變量之間的潛在特征。
基于神經網絡的字符識別技術
特征提取與神經網絡結合法
這種方法首先從待識別字符中提取特征,然后使用這些特征來訓練神經網絡分類器。特征提取依賴于人的經驗來定義和獲取特征,可以利用神經網絡的分類能力來識別字符。此方法的效果與字符特征的提取有關,特征參數過多會增加訓練時間,過少則可能導致識別歧義。
直接圖像輸入法
這種方法直接將圖像輸入到神經網絡中,由網絡自動實現特征提取直至識別。這樣不需要人工特征提取,可以充分利用神經網絡處理圖像數據的能力。網絡互連較多,抗干擾性能好,識別率高,但網絡結構較復雜,輸入模式維數的增加可能導致網絡規模過大。
識別算法
算法
模板匹配算法
模板匹配算法通過為每個字符創建一個標準模板,并將待識別的圖像調整到相同大小,實現字符識別。這一過程包括將各模板與待識別圖像逐點比對,根據相似度輸出識別結果。模板匹配的核心是模板的設計,確保每個模板與其對應字符高度一致,同時與其他字符保持一定差異。此方法的優點在于簡單易行,能較好地適應字符的輕微缺損和污跡,識別率較高;缺點是對圖像質量要求高,計算速度慢,容易誤識相似字符。因此,提高實時性和減少對相似字符的誤識別是模板匹配技術面臨的主要挑戰。
支持向量機
支持向量機(Support Vector Machine,SVM)是一類有監督學習方式,是對數據進行二元分類的廣義線性分類器,其工作原理是將數據映射到高維特征空間,在特征空間里利用算法求出一個超平面實現數據的分類,這樣即使數據不是線性可分,也可以對該數據點進行分類。支持向量機非常適合處理圖像數據帶來的挑戰,它們能夠學習復雜的圖案而不需要對噪聲過度敏感,它們能夠以高準確率識別光學圖案。
KNN算法
KNN(K-Nearest Neighbor)算法是機器學習算法中最基礎、最簡單的算法之一,其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性,該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。此過程分三步進行:首先定位文字的具體區域;其次提取文字的關鍵特征;最后利用KNN算法對這些特征進行分類,從而確定每個字符的身份。這種方法的有效性在于其簡便性和對近鄰樣本特性的直接應用。
Otsu算法
存在反滲噪聲的文檔圖像在利用OCR進行識別時,噪聲會對文字的切分、特征提取和分類產生很大的干擾,使得OCR的識別率下降,此時可通過利用Otsu方法來去除圖像的反滲噪聲,該算法根據圖像的灰度特性,將圖像分為前景和背景兩個部分,當取最佳閾值時,兩部分之間的差值應該是最大的。在Otsu算法中,所采用的衡量差別的標準就是較為常見的最大類間方差。因此,當對象物和背景的灰度值的差具有一定大小時,Otsu法是很有效的。Otsu二值化算法因其計算簡單,且不受圖像亮度和對比度的影響,被認為是圖像分割中值選取的最佳算法,在計算機視覺領域得到廣泛利用。
MSER算法
MSER(Maximally Stable Extremal Regions)算法是一種重要的圖像處理技術,其首先得到字符候選集,并且將文字候選區域看作連通圖的頂點,然后將文本行的尋找過程視為聚類(Clustering)過程。這種方法首先對灰度圖像進行全局閾值二值化,隨著閾值的逐漸變化,圖像中的連通區域在較寬的閾值范圍內保持面積穩定或變化微小。這些區域在閾值增加或減少時面積變化最小,從而被識別為MSER。通過合并增加和減少閾值過程中檢測到的穩定區域,MSER算法能夠有效地從復雜背景中分離出文字,提高OCR的準確率和效率。
SIFT算法
SIFT算法基于尺度空間理論,廣泛應用于OCR識別,偵測和描述圖像中的局部特征。算法首先使用高斯核構建尺度空間,通過Difference of Gaussian(DOG)檢測極值點以定位穩定的關鍵點。關鍵點通過泰勒展開修正,并篩除低對比度及邊緣響應點。每個特征點的主方向由其鄰域內梯度直方圖的峰值確定,可能有副方向。最后,特征點周圍分區域累計梯度方向生成128維描述符,以精確匹配特征點,增強圖像識別效率。
FCN算法
FCN是伯克利大學的研究人員提出用于進行圖像分割的算法,其輸出部分不是全連接層,而是全卷積層,因此最終的輸出不是類別而是特征映射。該方法將圖像級別的分類擴展到像素級別的分類。FCN的最后一層是上采樣層,通過上采樣獲取的預測輸出能夠和原始圖像的尺寸保持一致,因此FCN能夠對輸入圖像完成逐像素的分類。上采樣可以通過插值實現,也可以通過反卷積實現。相比于反卷積,插值的計算速度更快,而且不會增加模型的參數量。但是插值是一個固定的過程,它不具備反卷積的可學習性。在具體實施中,使用上采樣對特征圖像按原始尺寸進行恢復,使得輸出的特征圖像與輸入圖像具有相同的寬度和高度。
EAST算法
EAST算法是一種用于場景文本檢測的端到端的深度學習算法,它省去了不必要的中間步驟,直接通過單一的神經網絡預測出圖像中的任意方向的四邊形文本行,高效而準確地預測文本區域。EAST算法的網絡結構分為特征提取層、特征融合層和輸出層三個部分。特征提取層采用PVANet網絡,對輸入圖片進行特征提取;特征融合層采用U-Net模型,對提取的最后一層特征圖進行上采樣;輸出層通過卷積核大小為1x1的卷積輸出一個1通道的置信度得分圖和一個多通道的幾何特征圖。
模型
RNNLM
RNNLM利用遞歸神經網絡(RNN)構建語言模型,能有效表示詞匯歷史并編碼長時間上下文模式。與前饋神經網絡語言模型(NNLM)僅表征固定數量的歷史詞匯不同,RNNLM的隱層可以捕捉全部歷史詞匯,從而理論上能處理更復雜的序列模式,如依賴歷史中變化位置的詞語。由于它能從文本序列中學習并記憶關鍵詞匯的高級模式,這種能力使得RNNLM在處理自然語言中展現出更高的效率和準確性。
CTPN
CTPN是一種用于文本檢測的深度學習模型,旨在檢測圖像中的文本行和文本區域。CTPN結合了CNN和RNN的特性,能夠有效地處理不定長度的文本行,其核心思想是通過卷積神經網絡提取圖像中的特征,并通過循環神經網絡對特征序列進行建模。CTPN首先利用卷積神經網絡提取圖像特征,然后將特征序列輸入到雙向循環神經網絡(BiLSTM)中,對序列進行逐步處理和整合。最后,CTPN通過分支網絡預測文本行的邊界框和得分。CTPN在文本檢測任務中表現出較好的性能和魯棒性,尤其適用于場景文本的檢測,它能夠有效地檢測出圖像中的文本行,并提供其位置信息。
CRNN
CRNN是一種常用于文本識別任務的深度學習模型,它結合了CNN和RNN,用于實現端到端的文本識別和轉錄。CRNN由卷積層、循環層和全連接層三部分組成。卷積層用于提取輸入圖像的特征,捕捉字符的視覺信息;循環層利用RNN結構處理序列數據,對特征序列進行建模;全連接層將RNN輸出映射到字符分類。CRNN模型可以對任意長度的文本進行識別,無需對文本進行分割或其他預處理。CRNN在文本識別任務中表現出很好的性能,尤其在不規則文本場景中,如自然場景圖像中的文本、手寫文本等。
Seglink
SegLink是一個深度神經網絡文本檢測模型,它將一個文本行視為多個文本片段的集合,這些片段可以是一個字符或文本行的任何部分,這些文本片段被連接在一起,形成一個文本行。該類算法需要在不同尺度的特征層上設置一些固定的不同尺寸、不同寬高比的錨(Anchors),然后將這些錨點和真實文本框在中心點、寬和高等信息的差異作為卷積神經網絡預測的目標。
評價指標
識別正確率是OCR最重要的目標。衡量一個OCR系統性能好壞的主要指標包括拒識率、誤識率、用戶界面的友好性、產品的穩定性、易用性及可行性等。
OCR軟件
OCR文字識別軟件運用OCR技術將圖片、照片上的文字內容,直接轉換為可編輯文本的軟件,因此可以快捷地將大批量圖文內容轉化成可以識別的電子文檔。常用的OCR軟件包括ABBYY Finereader、Adobe Acrobat Pro DC、Tesseract OCR等。
應用
文檔處理及信息檢索
在文檔處理中,光學字符識別技術的運用能夠把紙質載體文案的信息內容利用高速掃描儀轉換成計算機能識別的圖像文件,如JPG、TIF或合成多頁的PDF文件,再利用光學字符識別軟件的字符識別功能把不能編輯的圖像文件和PDF文件中每個字符與標準的漢字數據庫中字符對比,截取相同形狀的字符并保存在文本編輯軟件中,保持能編輯的狀態,并可以進行自動標引或運用各類數據庫軟件的搜索引擎針對字符搜索,以達到文檔信息的全文檢索。
在掃描生成頁面后,光學字符識別技術針對印刷體的頁面文件般識別率可達98%以上,在自動糾錯、人工校對后,基本符合文檔數字化的要求。與人工單字輸入法相比,工作效率提高近十倍,工作強度成倍減少。純人工輸入連續工作的后果是差錯率的居高不下,從而影響文檔信息全文的檢索和使用,而運用光學字識別技術進行文檔全文數字化,可以幫助工作人員長時間連續工作。
港口作業
OCR可以通過相機拍攝待檢目標的照片,識別貨運集裝箱上唯一標識的序列數字,實時記錄設備的狀況,其主要優勢在于無需對設備資產安裝任何額外標簽或設備,只需對設備資產進行視覺識別并記錄,即可提供一種可靠的識別方法。由此形成和完善的碼頭信息鏈條對于改善集裝箱碼頭的作業流程提高生產效率降低運營成本、規避責任風險、提高服務質量具有重要的應用價值。
無論在全球碼頭還是航運網絡上,OCR應用程序都被認為是網絡設備資產可視化(NAV)的必要解決方案。其主要示例包括集裝箱箱號識別和跟蹤、道路集卡識別。道路集卡數據識別還能夠提升自動門系統,便于集卡和集裝箱的高效處理;檢查運輸車輛的合規性;跟蹤集卡排隊或流轉時間,以便操作員調配;在堆場、鐵路或橋吊內自動完成集裝箱轉運。
內部審計
OCR文本識別技術在審計業務上的應用,主要包括待識別數據導入、OCR識別模塊、識別數據存儲及審計應用三部分。
待識別數據導入模塊是OCR輔助審計系統的圖像輸入并將圖片發布到Redis的圖形通道,OCR識別模塊是對圖形鎖片進行預處理以及文字檢測。識別后,將識別文字發布到Kafaka文字通道中,審計模塊訂閱Kafaka中的數據進行持久化存儲,持久化到分布式大數據平臺HDFS中或關系數據庫中,最后開發審計數據應用接口供審計平臺進行分析利用。
財會
OCR文本識別技術在會計業務上的應用,主要是進行憑證識別,如增值稅發票識別、支票識別、銀行票據識別、營業執照識別等。融合大數據、人工智能、云計算等新技術,OCR文本識別技術識別并存儲紙質資料,拓展會計數據來源,豐富完善數據維度,降低企業內部風險,提高財會服務水平。
OCR技術在財會領域的應用主要分成識別確認模塊和記賬應用模塊。在識別確認模塊,OCR識別了發票代碼、發票號碼、發票日期、金額、稅額、總額、購方稅號、銷方稅號八個識別項后,形成結構化數據,用于認證、記賬等流程;在記賬應用模塊,財務部門可以利用OCR識別結果,提升記賬信息集成度,提高核算記賬效率和質量。
掃描識讀
在某些應用中,例如在需要人類識讀的應用中,或者在使用和保持條形碼標簽的成本過高和實際行不通的情況下,OCR支持模型對照和特點提取兩個主要方式。模型對照是看到印刷的字體,并將這個圖像與在數據庫中可能的選擇對照配對;特點提取是尋找結構特點和它們的綜合以識別字體。字體是在光源下被掃描識讀的,這種識別字體的系統是基于上述一個或兩個識讀方式,信息被轉換成電子形式,以便輸入到計算機中。
OCR識讀器大致有篇頁識讀器、業務文件識讀器和手持式識讀器3種類型。篇頁識讀器掃描整頁的文字,或者直接識讀紙張文件,或者識讀在計算機系統中存儲的數字化文件;業務文件識讀器掃描相對短的信息,如付款單據上的賬號;手持式識讀器方便數據輸入,圖書館在登記借書信息時,使用它來掃描國際圖書標準號碼(ISBN)。
發展前景
挑戰
多方向的文字檢測問題:雖然OCR技術已經隨著深度學習的發展取得了飛速的進步,但是對于復雜背景的圖片識別還存在諸多的問題。在文字檢測領域,對于多方向的文本、不規則的文本,檢測難度很大;對于小文本的檢測十分困難,對于字體變化很大的文本難以檢測,很難在一個算法中同時解決這些問題。
多類型的文本識別問題:在字符識別方面,當圖片中存在背景干擾遮擋、聚焦模糊等情況時,都會極大地增加識別難度。
魯棒性和推廣性較差:深度學習雖然是復雜背景文字檢測識別的主流方法,但基于學習的方法依賴于大量優質樣本數據,且在某一測試集上表現良好的數據,更換一個數據集上表現就可能很不好。因此深度學習的方法魯棒性和推廣性不夠好,且極易受到噪聲的影響。
低質量輸入圖像:低分辨率的文本圖像,如20 dpi的掃描圖像,對OCR系統構成挑戰,因為這些圖像難以清晰地顯示出字符的細節。
手寫文字識別:手寫文字識別一直是OCR領域的一個重要挑戰。傳統的手寫體識別方法依賴于圖像分割和隱藏馬爾可夫模型(HMM)等技術,對于阿拉伯手寫體文本,由于其獨特的書寫特性,如連續性和基線概念的缺乏,識別變得更加復雜。
實時處理需求:OCR軟件的準確分析文檔的能力取決于原始文檔的狀況和/或數字文件的質量。很少有數字輸出能達到100%的準確率,系統本身也無法進行這種檢查。對于大量文本或原始文本質量較差的情況,編輯/校正過程可能需要相當長的時間。
其他:在安全方面,OCR技術有可能被攻擊者利用來從文件中提取私人信息;在成本方面,高級OCR軟件可能價格昂貴,而商業解決方案可能需要持續的許可或訂閱費用;此外,OCR系統通常缺乏上下文意識,這可能導致它們誤讀那些含義取決于周圍文本上下文的單詞或短語。
方向
端到端的檢測與識別:OCR存在大量挑戰和機遇,端到端的研究比較少,許多端到端的研究實際上還是用的偽到端的方法。但是端到端的檢測與識別具有很高的應用價值,可能是未來的發展趨勢之一。
文字檢測的評價標準:光學字符識別作為計算機視覺中的一個重要研究方向,近年來逐漸成為研究熱點。隨著信息化的普及,OCR的應用場景也越來越廣闊,尤其是場景文字識別研究這個分支,有越來越多的學者投入到OCR的研究當中,如文字檢測的評價標準?;趯W習文字檢測算法依賴大量數據,如何做數據集的增廣對于OCR的研究至關重要。
OCR與開放場景的文字識別相結合:例如協助盲人和視障人士、護照、車牌、發票、銀行對帳單、名片和自動車牌識別等,用于交通、戶外消費、自動駕駛等場景。
深度學習和人工智能的應用:未來OCR發展將依托深度學習和人工智能的技術,超越傳統的字符匹配范疇。深度學習技術通過構建模擬人類大腦功能的神經網絡,使OCR算法不再依賴于歷史模式來驗證準確性。無論是簡易的OCR PDF工具,還是由光學字符識別技術驅動的高級軟件,都將持續進行獨立思考和學習。
無障礙技術:未來OCR軟件將會為盲人和視障用戶提供更好的體驗,在識別過程中,它不僅要考慮語言和文本結構,還需糾正拼寫錯誤的單詞,從而確保最準確的信息傳達給用戶。對于盲人或視障人士而言,他們可以利用自適應技術設備輕松掃描文本并訪問所需內容。這些設備不僅可以放大計算機屏幕上的文字,還能提供語音輸出或盲文轉換,以滿足不同用戶的需求。
相關概念
參考資料 >
The evolution of document capture.parashift.io.2024-05-30
How Optical Character Recognition (OCR) Works.lifewire.2024-05-30
OCR.viso.ai.2024-05-30
國內首份OCR白皮書公布 全面盤點OCR產業發展態勢.中央廣電總臺國際在線.2024-05-22
OCR識別原理和場景應用淺析.51cto.2024-06-06
OCR 是什么?.亞馬遜.2024-06-06
通用文字識別.文通科技.2024-05-25
Optical Character Recognition (OCR): An Introduction.guides.libraries.psu.edu.2024-05-30
What is Optical Character Recognition (OCR)?.geeksforgeeks.2024-05-30
How does optical character recognition work?.IBM.2024-05-30
OCR meaning: why is OCR software important?.adobe.2024-05-30