必威电竞|足球世界杯竞猜平台

語(yǔ)音識(shí)別技術(shù)
來(lái)源:互聯(lián)網(wǎng)

語(yǔ)音識(shí)別技術(shù)(Speech Recognition Technology),也稱自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)是一種以語(yǔ)音為研究對(duì)象,通過(guò)語(yǔ)音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別和理解人類口述的語(yǔ)言或者文字的技術(shù),語(yǔ)音識(shí)別技術(shù)一般利用計(jì)算機(jī)程序,通過(guò)分析語(yǔ)音信號(hào)的頻率、聲調(diào)、語(yǔ)速、語(yǔ)調(diào)等特征,進(jìn)一步進(jìn)行聲學(xué)建模、語(yǔ)言模型以及語(yǔ)音與自然語(yǔ)言之間的對(duì)齊、解碼等技術(shù)處理,最終輸出具有理解性的文本結(jié)果。

20世紀(jì)50年代,以貝爾實(shí)驗(yàn)室研制成功可以識(shí)別10個(gè)英文數(shù)字的實(shí)驗(yàn)系統(tǒng)為標(biāo)志,語(yǔ)音技術(shù)研究工作正式進(jìn)入起步階段。

語(yǔ)音識(shí)別是一門涉及面很廣的交叉學(xué)科,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信息理論、模式識(shí)別理論以及神經(jīng)科學(xué)等學(xué)科都有非常密切的關(guān)系。正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠脫離鍵盤等輸入工具,通過(guò)語(yǔ)音命令進(jìn)行相應(yīng)的操作。

語(yǔ)音識(shí)別目前是人工智能領(lǐng)域相對(duì)成熟的技術(shù),已經(jīng)廣泛應(yīng)用于智能助理、語(yǔ)音識(shí)別交互、智能家居、金融交易等領(lǐng)域。伴隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,基于Deep Peak2、Deep Fully等語(yǔ)言模型開(kāi)發(fā)出來(lái)的的語(yǔ)音識(shí)別技術(shù),也已經(jīng)廣泛地被應(yīng)用于各類產(chǎn)品之上。

發(fā)展歷史

20世紀(jì)50年代,貝爾(Bell)實(shí)驗(yàn)室實(shí)現(xiàn)了世界上第一臺(tái)能識(shí)別10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng),即Audry System,標(biāo)志著語(yǔ)音識(shí)別研究工作的開(kāi)始。

到了20世紀(jì)60年代,隨著計(jì)算機(jī)技術(shù)的發(fā)展,使用動(dòng)態(tài)規(guī)劃(DP,動(dòng)態(tài)模擬 Programming)和線性預(yù)測(cè)分析技術(shù)(LP,Linear Prediction)分析語(yǔ)音信號(hào)的聲學(xué)模型開(kāi)始被創(chuàng)建,通過(guò)該模型,人們將語(yǔ)音信號(hào)轉(zhuǎn)換成數(shù)字形式以便計(jì)算機(jī)進(jìn)行處理。

1970年,來(lái)自前蘇聯(lián)的Velichko和Zagoruyko將模式識(shí)別的概念引入語(yǔ)音識(shí)別中。同年,Itakura提出了線性預(yù)測(cè)編碼(LinearPredictiveCoding,LPC)技術(shù),并將該技術(shù)應(yīng)用于語(yǔ)音識(shí)別。1978年,日本人Sakoe和Chiba在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上,成功地使用動(dòng)態(tài)規(guī)劃算法將兩段不同長(zhǎng)度的語(yǔ)音在時(shí)間軸上進(jìn)行了對(duì)齊,這就是我們現(xiàn)在經(jīng)常提到的動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping,DTW)。該算法把時(shí)間規(guī)整和距離的計(jì)算有機(jī)地結(jié)合起來(lái),解決了不同時(shí)長(zhǎng)語(yǔ)音的匹配問(wèn)題。

1970-1980年的這段時(shí)間,語(yǔ)音識(shí)別研究從特定人的小規(guī)模獨(dú)立詞語(yǔ)音識(shí)別轉(zhuǎn)變?yōu)閷?duì)說(shuō)話人無(wú)關(guān)的連續(xù)語(yǔ)音識(shí)別。

IBM的工程師Jelinek和他的團(tuán)隊(duì)在80年代開(kāi)發(fā)出了語(yǔ)音激活的打字機(jī),一種名為Tangora的試驗(yàn)性語(yǔ)音識(shí)別系統(tǒng)采用 IBM PC AT識(shí)別語(yǔ)音,并打印在紙上。每個(gè)講話人必須分別訓(xùn)練打字機(jī),使其能夠識(shí)別他或她的聲音,并且在每?jī)蓚€(gè)字之間稍作停頓。到了20世紀(jì)80年代中期,Tangora識(shí)別的詞匯量達(dá)到了 20000字,證明了統(tǒng)計(jì)方法的有效性。

1989年Rabiner提出了隱馬爾科夫模型(Hidden Markov Model, HMM),將語(yǔ)音識(shí)別研究從模版匹配方法轉(zhuǎn)變?yōu)榛诟怕式y(tǒng)計(jì)的統(tǒng)計(jì)建模系統(tǒng)化研究。

2000年以來(lái),人機(jī)語(yǔ)音交互成為研究的焦點(diǎn)。研究重點(diǎn)包括即興口語(yǔ)的識(shí)別和理解自然口語(yǔ)對(duì)話,以及多語(yǔ)種的語(yǔ)音同聲翻譯。

2011年美國(guó)蘋(píng)果公司推出了智能語(yǔ)音系統(tǒng)Siri,可以通過(guò)語(yǔ)音的方式接收用戶的需求,讓用戶跳過(guò)繁雜的操作步驟實(shí)現(xiàn)自己的要求,改變了人們與可計(jì)算設(shè)備的交流方式。

2012年,谷歌在語(yǔ)音識(shí)別領(lǐng)域首次使用了深度神經(jīng)網(wǎng)絡(luò),取得了重大的突破。該技術(shù)可以大大提高語(yǔ)音識(shí)別的準(zhǔn)確性和速度,使得語(yǔ)音識(shí)別可以廣泛應(yīng)用于物聯(lián)網(wǎng)、智能家居、語(yǔ)音助手等領(lǐng)域。

2017年,百度集團(tuán)提出了Deep Speech2和Deep Peak2等端到端模型,同年Google將機(jī)器翻譯中使用的Seq-Seq方法應(yīng)用于語(yǔ)音識(shí)別并提出了Self-Attention和Multi-head結(jié)構(gòu),取得了較好的識(shí)別效果,Google還于2018年的Interspeech會(huì)議上提出了 LAS (Listen Attend and Spell) 在線識(shí)別產(chǎn)品。。同年,中國(guó)的科大訊飛提出了深度全卷積神經(jīng)網(wǎng)絡(luò)模型 (Deep FullyConvolutional Neural Network, DFCNN),以及阿里巴巴集團(tuán)提出并開(kāi)源了基于雙向LSTM的深度前饋序列記憶網(wǎng)絡(luò) (Deep Feedforward Sequential Memory Network,DFSMN),這些模型和技術(shù)都推動(dòng)了語(yǔ)音識(shí)別技術(shù)的發(fā)展。

原理

語(yǔ)音識(shí)別的原理是將語(yǔ)音轉(zhuǎn)換成用戶能讀懂的文字。其采用模式識(shí)別作為基本框架,分為數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練、測(cè)試應(yīng)用四部分,其功能模塊和原理如下圖所示。

語(yǔ)音識(shí)別一般可分為兩個(gè)模塊,訓(xùn)練模塊和識(shí)別模塊。訓(xùn)練模塊主要通過(guò)對(duì)聲音的學(xué)習(xí),將學(xué)習(xí)結(jié)果構(gòu)成語(yǔ)音庫(kù)并存儲(chǔ),在識(shí)別過(guò)程中將當(dāng)前聽(tīng)到的聲音在語(yǔ)音庫(kù)中查找相應(yīng)語(yǔ)義或詞義。識(shí)別模塊依據(jù)當(dāng)前主流的語(yǔ)音識(shí)別算法,解析接收的聲音信號(hào)特征參數(shù)(即特征提?。凑占榷ǖ呐袛鄺l件和準(zhǔn)則與語(yǔ)音庫(kù)的數(shù)據(jù)進(jìn)行比較,最終通過(guò)對(duì)比得出語(yǔ)音識(shí)別結(jié)果。

分類

關(guān)鍵字識(shí)別(Keyword Spotting)

關(guān)鍵詞識(shí)別是從連續(xù)無(wú)限制的語(yǔ)音中識(shí)別給定的若干個(gè)詞。而這些話語(yǔ)可以包括許多其它的詞和其他各種非語(yǔ)音現(xiàn)象,如,咳嗽聲、呼吸聲、咋舌聲、音樂(lè)聲、關(guān)門聲、背景噪聲和傳輸噪聲等。

關(guān)鍵詞識(shí)別包括兩個(gè)方面的基本內(nèi)容:關(guān)鍵詞檢出和關(guān)鍵詞確認(rèn)。關(guān)鍵詞檢出是鑒別輸入的聲音是否包含預(yù)先建立的關(guān)鍵詞,關(guān)鍵詞確認(rèn)是要判斷輸入的聲音是否是假設(shè)的關(guān)鍵詞。

目前隨著語(yǔ)音分析處理理論的進(jìn)一步發(fā)展,關(guān)鍵字識(shí)別的應(yīng)用領(lǐng)域越來(lái)越廣泛,如聲控電話交換、語(yǔ)音撥號(hào)系統(tǒng)、訂票系統(tǒng),醫(yī)療服務(wù)、搜索引擎等等。

聲學(xué)模型識(shí)別(Acoustic Model-Based Recognition)

聲學(xué)模型是使用機(jī)器學(xué)習(xí)算法,對(duì)音頻進(jìn)行處理,訓(xùn)練出語(yǔ)音特征和語(yǔ)音識(shí)別模型,從而識(shí)別輸入的語(yǔ)音。聲學(xué)模型將語(yǔ)音數(shù)據(jù)映射為一組概率分布,用于表示語(yǔ)音特征在語(yǔ)音信號(hào)中的出現(xiàn)概率。這些概率分布在語(yǔ)音識(shí)別時(shí)被用來(lái)計(jì)算語(yǔ)音信號(hào)所對(duì)應(yīng)的文本。對(duì)于給定的語(yǔ)音信號(hào),聲學(xué)模型可以計(jì)算其與某個(gè)文本之間的相似度或距離度量,從而確定最可能對(duì)應(yīng)的文本,也就是被識(shí)別的語(yǔ)音文本。

語(yǔ)言模型識(shí)別(Language Model-Based Recognition)

語(yǔ)言模型主要是基于統(tǒng)計(jì)模型、深度學(xué)習(xí)等算法,用于解決語(yǔ)音識(shí)別中潛在的歧義問(wèn)題,提高語(yǔ)音識(shí)別的準(zhǔn)確性。該技術(shù)主要分為兩步:訓(xùn)練和分類。

在訓(xùn)練階段,輸入大量腳本和標(biāo)注好的語(yǔ)言類型,讓系統(tǒng)學(xué)會(huì)不同語(yǔ)言的特點(diǎn)以及在每種語(yǔ)言中出現(xiàn)的單詞組合。通過(guò)計(jì)算每種語(yǔ)言的詞頻、序列頻率等指標(biāo)來(lái)進(jìn)行建模。語(yǔ)言模型使用的是基于n元語(yǔ)法的統(tǒng)計(jì)模型,其中n表示利用前n-1個(gè)詞預(yù)測(cè)下一個(gè)詞的模型。

在分類階段,給定一段文本,通過(guò)模型對(duì)其進(jìn)行推理,計(jì)算出指定文本屬于每一種語(yǔ)言的可能性。最后,選取概率最大的語(yǔ)言種類作為答案??梢酝ㄟ^(guò)計(jì)算給定文本與每種語(yǔ)言模型的相似度得到判定結(jié)果,通常使用的是余弦相似度等方法。

端到端語(yǔ)音識(shí)別(End-to-End Speech Recognition)

這類語(yǔ)音識(shí)別技術(shù)不需要將語(yǔ)音信號(hào)轉(zhuǎn)化為小的聲學(xué)特征,而是將整個(gè)語(yǔ)音信號(hào)直接輸入到深度學(xué)習(xí)模型中,從而實(shí)現(xiàn)語(yǔ)音識(shí)別,它使用單個(gè)模型將音頻直接映射字符或單詞,更易于構(gòu)建和訓(xùn)練。

端到端模型的所有參數(shù)都可以隨著訓(xùn)練的進(jìn)行而同步調(diào)整優(yōu)化,避免由于使用不同的損失函數(shù)而給各模塊帶來(lái)訓(xùn)練上的差異。

混合式語(yǔ)音識(shí)別(Hybrid Speech Recognition)

混合式語(yǔ)音識(shí)別結(jié)合聲學(xué)模型語(yǔ)言模型進(jìn)行學(xué)習(xí),同時(shí)也使用了HMM和DNN等混合算法模型,混合式語(yǔ)音識(shí)別主要包括兩個(gè)階段:前端音頻處理和后端語(yǔ)音識(shí)別。在前端音頻處理中,主要是對(duì)輸入的音頻信號(hào)進(jìn)行預(yù)處理,將原始音頻信號(hào)通過(guò)濾波、去噪等處理方式,提升錄音的質(zhì)量。在后端語(yǔ)音識(shí)別中,主要是采用兩種或以上的語(yǔ)音識(shí)別技術(shù)結(jié)合使用,提高識(shí)別準(zhǔn)確率和魯棒性。

應(yīng)用

語(yǔ)音助手

蘋(píng)果公司與語(yǔ)音識(shí)別廠商合作后,手機(jī)就實(shí)現(xiàn)了語(yǔ)音識(shí)別功能,也就成為了今天為我們熟知的Siri。到2015年9月,Siri已經(jīng)可以擺脫從前的手動(dòng)開(kāi)啟模式,支持語(yǔ)音命令“hi Siri”開(kāi)啟,在一定程度上實(shí)現(xiàn)了解放雙手。Siri發(fā)展得越來(lái)越智能化,甚至一度出現(xiàn)了“全民調(diào)戲”Siri的局面。可以為用戶提供語(yǔ)音控制的操作方式,方便用戶使用設(shè)備或獲取信息。

語(yǔ)音搜索

用戶通過(guò)語(yǔ)音的方式來(lái)搜索所需信息。比如基于Android系統(tǒng)作為應(yīng)用開(kāi)發(fā)平臺(tái),利用谷歌語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)了語(yǔ)音搜索以及語(yǔ)音打開(kāi)手機(jī)軟件的功能。

開(kāi)發(fā)人員還實(shí)現(xiàn)了常用網(wǎng)站鏈接以及手機(jī)軟件的列表展示,使用戶能夠更加方便地上網(wǎng)和娛樂(lè)。通過(guò)真機(jī)測(cè)試,語(yǔ)音搜索與語(yǔ)音打開(kāi)手機(jī)軟件的功能均已實(shí)現(xiàn),性能穩(wěn)定可靠,實(shí)用性強(qiáng)。

語(yǔ)音翻譯

通過(guò)語(yǔ)音來(lái)輸入需要翻譯的文本,然后翻譯軟件通過(guò)語(yǔ)音識(shí)別技術(shù)識(shí)別用戶的語(yǔ)音,將語(yǔ)音翻譯成目標(biāo)語(yǔ)言的文字。比如Google在2018年時(shí),將機(jī)器中使用的Seq-Seq方法應(yīng)用于語(yǔ)音識(shí)別并提出了Self-Attention和Multi-head的模型,取得了較好的識(shí)別和翻譯效果。

語(yǔ)音識(shí)別密碼

在銀行、電子商務(wù)、社交媒體等領(lǐng)域中,用戶可以通過(guò)語(yǔ)音進(jìn)行認(rèn)證或支付等操作。

比如采用基于統(tǒng)計(jì)模型的隱馬爾可夫模型(hidden Markov model,HMM)來(lái)描述語(yǔ)音模型,進(jìn)行語(yǔ)音模型庫(kù)訓(xùn)練,并使用模板匹配的Viterbi算法進(jìn)行語(yǔ)音識(shí)別,實(shí)現(xiàn)的語(yǔ)音密碼鎖系統(tǒng)的而設(shè)計(jì)出來(lái)的密碼鎖,可以將語(yǔ)音密碼和鍵盤密碼技術(shù)相結(jié)合以保證系統(tǒng)安全性,通過(guò)測(cè)試,系統(tǒng)對(duì)特定人語(yǔ)音識(shí)別率可以達(dá)到98%。

語(yǔ)音控制

在智能家居領(lǐng)域,讓用戶通過(guò)語(yǔ)音控制家電設(shè)備,打開(kāi)電視、調(diào)節(jié)空調(diào)溫度等操作。

阿里巴巴集團(tuán)公司推出的天貓精靈智能音響,就可以通過(guò)“天貓精靈”的呼喚語(yǔ)喚醒后,說(shuō)出相應(yīng)的控制語(yǔ)句進(jìn)行家電的動(dòng)作控制。

醫(yī)療領(lǐng)域

通過(guò)智能語(yǔ)音識(shí)別技術(shù)與醫(yī)療場(chǎng)景的結(jié)合應(yīng)用,輔助臨床工作,提高工作效率,在醫(yī)生和患者之間進(jìn)行交流、實(shí)現(xiàn)語(yǔ)音識(shí)別病歷輸入和醫(yī)囑等操作。

例如,基于“語(yǔ)音云”開(kāi)發(fā)出醫(yī)療語(yǔ)音輸入助理,使醫(yī)生在使用鍵盤書(shū)寫(xiě)病歷時(shí)可一鍵開(kāi)啟語(yǔ)音輸入,提高病歷錄入效率,針對(duì)識(shí)別過(guò)程中出現(xiàn)的多字、漏字、識(shí)別錯(cuò)誤等問(wèn)題建立各個(gè)科室的語(yǔ)料數(shù)據(jù)庫(kù),優(yōu)化醫(yī)療語(yǔ)言模型并增加方言識(shí)別功能,解決醫(yī)生錄人慢、電子病歷應(yīng)用推廣難的問(wèn)題。

教育領(lǐng)域

語(yǔ)音識(shí)別技術(shù)在口語(yǔ)測(cè)評(píng)、學(xué)習(xí)記錄、智能演講臺(tái)、多媒體信息檢索等也有較多應(yīng)用,語(yǔ)音技術(shù)的發(fā)展將進(jìn)一步助力外語(yǔ)及語(yǔ)言教學(xué),提高教學(xué)效率、改善教學(xué)效果,促進(jìn)人工智能技術(shù)的整體發(fā)展。

利用語(yǔ)音識(shí)別開(kāi)發(fā)出來(lái)的基于教育機(jī)器人的語(yǔ)音控制自動(dòng)化編程系統(tǒng),與傳統(tǒng)化的圖形化編程和文本編程相比,語(yǔ)音控制編程更加智能化、易操作、易學(xué)習(xí),達(dá)到了寓教于樂(lè)的編程學(xué)習(xí)目的。

語(yǔ)音識(shí)別的缺陷

雖然語(yǔ)音識(shí)別技術(shù)在機(jī)器學(xué)習(xí)的推動(dòng)下取得了一定的進(jìn)步,但仍有欠缺。當(dāng)前,絕大多數(shù)的語(yǔ)音識(shí)別軟件的聲學(xué)模型都是根據(jù)標(biāo)準(zhǔn)的發(fā)音建立的。但事實(shí)上,很多人都無(wú)法做到口音都與標(biāo)準(zhǔn)語(yǔ)音完全相同,導(dǎo)致有時(shí)軟件識(shí)別出來(lái)的結(jié)果都可能與說(shuō)話者想要的結(jié)果存在偏差。特別是對(duì)于方言,若是語(yǔ)音庫(kù)中沒(méi)有對(duì)特定的方言進(jìn)行訓(xùn)練,沒(méi)有建立方言的聲學(xué)模型,那么軟件對(duì)這種方言的識(shí)別效果可能降低。

此外,業(yè)內(nèi)普遍認(rèn)同的97%的語(yǔ)音識(shí)別精度只能在安靜的室內(nèi)環(huán)境中才可以實(shí)現(xiàn)。但是在實(shí)際情況中,諸如麥克風(fēng)質(zhì)量低和存在背景噪聲等因素都會(huì)降低語(yǔ)音識(shí)別的準(zhǔn)確性。

語(yǔ)音識(shí)別過(guò)程中,語(yǔ)言模型對(duì)于識(shí)別準(zhǔn)確率的影響非常大,而現(xiàn)有的語(yǔ)言模型仍存在語(yǔ)法不完整、詞匯數(shù)量少等問(wèn)題,而且現(xiàn)實(shí)中的語(yǔ)音交互需要滿足實(shí)時(shí)性要求,而語(yǔ)音識(shí)別系統(tǒng)需要花費(fèi)較長(zhǎng)時(shí)間來(lái)處理語(yǔ)音信號(hào),如何提高系統(tǒng)的實(shí)時(shí)性能也是識(shí)別技術(shù)需要解決的問(wèn)題。

今后展望

基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)進(jìn)行網(wǎng)絡(luò)模型壓縮和加速,將是未來(lái)語(yǔ)音識(shí)別的研究方向之一。

在面對(duì)小樣本數(shù)據(jù)或復(fù)雜問(wèn)題時(shí),遷移學(xué)習(xí)是一種有效的方式。在語(yǔ)音識(shí)別領(lǐng)域中,采用遷移學(xué)習(xí)的方式對(duì)小語(yǔ)種、方言口音或含噪語(yǔ)音進(jìn)行識(shí)別也是未來(lái)的研究方向之一。

對(duì)于一些復(fù)雜的語(yǔ)音場(chǎng)景(高噪聲、混響、多源干擾等),可以利用語(yǔ)音信號(hào)和其他信號(hào)(如圖像信號(hào)、振動(dòng)信號(hào)等) 進(jìn)行融合,以提高語(yǔ)音識(shí)別性能。

當(dāng)前大多數(shù)語(yǔ)音識(shí)別算法只關(guān)注識(shí)別文字內(nèi)容的正確性,然而,許多智能語(yǔ)音交互的應(yīng)用(如QA 問(wèn)答、多輪對(duì)話等) 還涉及到語(yǔ)義的理解,因此,將語(yǔ)音識(shí)別技術(shù)結(jié)合其他技術(shù)如自然語(yǔ)言處理(natural language processing, 失明) 相結(jié)合以提升識(shí)別性能也是未來(lái)學(xué)方向之一。

將語(yǔ)音識(shí)別和視覺(jué)識(shí)別結(jié)合在一起,即引入“基于模態(tài)注意力的端到端”方法,將語(yǔ)音和唇部動(dòng)作信息有機(jī)地融合在一起,從而有效地改善語(yǔ)音識(shí)別的效果,人類今后會(huì)在在多模態(tài)識(shí)別領(lǐng)域取得了新的進(jìn)展。

參考資料 >

..2023-05-21

..2023-05-21

..2023-05-26

..2023-05-26

..2023-06-05

..2023-06-05

..2023-05-26

..2023-05-26

..2023-05-21

..2023-06-08

..2023-05-26

..2023-06-08

..2023-06-08

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-26

..2023-05-21

..2023-05-21

..2023-05-21

..2023-05-26

..2023-05-21

..2023-05-26

..2023-05-21

..2023-05-26

..2023-05-21

..2023-05-21

生活家百科家居網(wǎng)