本系列文章開(kāi)始,我們將一起探索自動(dòng)語(yǔ)音識(shí)別、語(yǔ)言處理技術(shù)所包含的核心算法、模型及未來(lái)的發(fā)展趨勢(shì)。本篇文章我們主要討論語(yǔ)音識(shí)別的基本概念。并理解語(yǔ)音識(shí)別技術(shù)的流程。
(一) 自動(dòng)語(yǔ)音識(shí)別技術(shù)ASR
自動(dòng)語(yǔ)音識(shí)別,簡(jiǎn)稱(chēng)ASR。這項(xiàng)技術(shù)是使人與人,人與機(jī)器更順暢交流的關(guān)鍵技術(shù)。
隨著人們對(duì)生活的儀式感的追求,移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居設(shè)備、車(chē)載信息娛樂(lè)系統(tǒng)也變得越來(lái)越流行。在這些設(shè)備和系統(tǒng)上,以往鼠標(biāo)、鍵盤(pán)這樣的交互方式就不再延續(xù)像用在電腦上一樣的便捷性了。而語(yǔ)音作為人類(lèi)之間自然的交流方式,在這些設(shè)備和系統(tǒng)上就成為了更受歡迎的交互方式了。
如果有一個(gè)語(yǔ)音到語(yǔ)音翻譯系統(tǒng)其實(shí)就可以完美消除這個(gè)交流壁壘。這樣的話就算語(yǔ)言不通人們也可以自由地進(jìn)行交流。比如我們現(xiàn)在這里看到的就是一個(gè)典型的語(yǔ)音到語(yǔ)音的翻譯系統(tǒng),可以看到,語(yǔ)音識(shí)別是這個(gè)流水過(guò)程中的第一環(huán)。
(二) 人機(jī)交流場(chǎng)景
我們說(shuō)語(yǔ)音技術(shù)可以極大地提升人機(jī)交流的能力,其中最流行的應(yīng)用場(chǎng)景就有大家所熟知的語(yǔ)音搜索、個(gè)人數(shù)碼助理、游戲、起居室交互系統(tǒng)和車(chē)載信息娛樂(lè)系統(tǒng)。
對(duì)于語(yǔ)音搜索而言,它能使用戶(hù)直接通過(guò)語(yǔ)音來(lái)搜索餐館、行駛路線和商品評(píng)價(jià)的信息。這極大地簡(jiǎn)化了用戶(hù)輸入搜索請(qǐng)求的方式。目前,語(yǔ)音搜索類(lèi)的應(yīng)用在各類(lèi)品牌和系統(tǒng)的手機(jī)上都已非常流行。
第二個(gè)個(gè)人數(shù)碼助理已經(jīng)作為原型產(chǎn)品出現(xiàn)了十年,siri系統(tǒng)就是從它變得流行起來(lái)的。自那以后,都發(fā)布了類(lèi)似的產(chǎn)品。我們把這種系統(tǒng)簡(jiǎn)稱(chēng)PDA。PDA系統(tǒng)知曉我們?cè)谝苿?dòng)設(shè)備上的信息,了解一些常識(shí)并記錄了用戶(hù)與系統(tǒng)的交互歷史。有了這些信息后,PDA可以更好的服務(wù)用戶(hù)。比如,可以完成撥打電話、回答問(wèn)題和音樂(lè)搜索等工作。而用戶(hù)所需要做的只是直接向系統(tǒng)發(fā)出語(yǔ)音指令即可。
在融合語(yǔ)音技術(shù)之后,游戲的體驗(yàn)將得到很大的提升。例如,玩家可以和游戲角色對(duì)話以詢(xún)問(wèn)信息或者發(fā)出指令。
最后,起居室交互系統(tǒng)和車(chē)載信息娛樂(lè)信息在功能上十分相似。這種系統(tǒng)允許用戶(hù)使用語(yǔ)音與之交互,我們可以通過(guò)他們來(lái)播放音樂(lè)、詢(xún)問(wèn)信息或者控制系統(tǒng)。當(dāng)然,由于這些系統(tǒng)的使用條件不同,設(shè)計(jì)這樣的系統(tǒng)時(shí)會(huì)遇到不同的挑戰(zhàn)。
(三) 語(yǔ)音對(duì)話系統(tǒng)的組成
在上述的所有應(yīng)用場(chǎng)景和系統(tǒng)討論的都是語(yǔ)音對(duì)話系統(tǒng)。如下圖所示,語(yǔ)音對(duì)話系統(tǒng)通常包括四個(gè)主要組成部分的一個(gè)或多個(gè):語(yǔ)音識(shí)別系統(tǒng)將語(yǔ)音轉(zhuǎn)化為文本、語(yǔ)音理解系統(tǒng)提取用戶(hù)說(shuō)話的語(yǔ)義信息、文字轉(zhuǎn)語(yǔ)音系統(tǒng)將內(nèi)容轉(zhuǎn)化為語(yǔ)音、對(duì)話管理系統(tǒng)將前面的三個(gè)系統(tǒng)連接起來(lái)并完成與實(shí)際應(yīng)用場(chǎng)景的溝通。這些內(nèi)容對(duì)建立一個(gè)成功的語(yǔ)音對(duì)話系統(tǒng)都是很關(guān)鍵的,我們的關(guān)注重點(diǎn)主要是在語(yǔ)音識(shí)別系統(tǒng)。
下面展示的語(yǔ)音識(shí)別系統(tǒng)的典型結(jié)構(gòu),語(yǔ)音識(shí)別系統(tǒng)主要由圖中四個(gè)部分組成:信號(hào)處理和特征提取、聲學(xué)模型、語(yǔ)言模型和解碼搜索部分。信號(hào)處理和特征提取部分是以音頻信號(hào)作為輸入,通過(guò)消除噪聲和信道失真對(duì)語(yǔ)音進(jìn)行增強(qiáng),為后面的聲學(xué)模型提取合適的有代表性的特征向量。聲學(xué)模型將聲學(xué)和發(fā)音學(xué)的知識(shí)進(jìn)行了融合,以特征提取部分生成的特征作為輸入,并為可變長(zhǎng)特征序列生成聲學(xué)模型的分?jǐn)?shù)。語(yǔ)言模型估計(jì)通過(guò)從訓(xùn)練語(yǔ)料,通常是文本形式,學(xué)習(xí)詞之間的相互關(guān)系,來(lái)估計(jì)假設(shè)詞序列的可能性,又被稱(chēng)作語(yǔ)言模型分?jǐn)?shù)。如果了解了領(lǐng)域或任務(wù)相關(guān)的先驗(yàn)知識(shí),語(yǔ)言模型分?jǐn)?shù)通??梢怨烙?jì)得更準(zhǔn)確。解碼搜索對(duì)給定的特征向量序列和若干假設(shè)詞序列計(jì)算聲學(xué)模型分?jǐn)?shù)和語(yǔ)言模型分?jǐn)?shù),將總體輸出分?jǐn)?shù)最高的詞序列當(dāng)做識(shí)別結(jié)果。在這里,我們主要討論聲學(xué)模型。
關(guān)于聲學(xué)模型,有兩個(gè)主要問(wèn)題,分別是不定長(zhǎng)的特征向量序列和豐富多變的音頻信號(hào)。不定長(zhǎng)的問(wèn)題通常由動(dòng)態(tài)時(shí)間規(guī)整方法和隱馬爾可夫模型方法來(lái)解決。而豐富多變性主要是由于說(shuō)話的人的各種復(fù)雜特性,比如音色、風(fēng)格、速度等,還有加之環(huán)境噪聲、周?chē)寺?、方言差異等引起。所以,一個(gè)成功的語(yǔ)音識(shí)別系統(tǒng)必須能夠音符所有可能性的變化因素。
這樣的話,我們從特定領(lǐng)域任務(wù)向真實(shí)應(yīng)用轉(zhuǎn)變時(shí),就會(huì)遇到一些困難。就像上圖當(dāng)中所展示的,一個(gè)時(shí)下實(shí)際的語(yǔ)音識(shí)別系統(tǒng)需要處理大量的詞匯,可能是數(shù)百萬(wàn)量級(jí)的,自由式對(duì)話,帶噪聲的遠(yuǎn)場(chǎng)自發(fā)語(yǔ)音和多語(yǔ)言混合的問(wèn)題。由于有了真實(shí)世界任務(wù)的需求,當(dāng)今正在解決的語(yǔ)音識(shí)別相關(guān)的問(wèn)題,如最右側(cè)所示,就比過(guò)去已經(jīng)解決的問(wèn)題要難很多。
(四) 傳統(tǒng)聲學(xué)模型
下面我們就來(lái)介紹一下傳統(tǒng)的聲學(xué)模型。語(yǔ)音識(shí)別建模對(duì)語(yǔ)音識(shí)別來(lái)說(shuō)是不可或缺的一部分,因?yàn)椴煌慕<夹g(shù)通常意味著不同的識(shí)別性能,所以這是各個(gè)語(yǔ)音識(shí)別團(tuán)隊(duì)重點(diǎn)優(yōu)化的方向。也正是因?yàn)槿绱耍Z(yǔ)音識(shí)別的模型也層出不窮,在聲學(xué)模型里面又涵蓋了HMM、DNN、RNN等模型。簡(jiǎn)單來(lái)說(shuō),聲學(xué)模型的任務(wù)就是描述語(yǔ)音的物理變化規(guī)律,而語(yǔ)言模型則表達(dá)了自然語(yǔ)言包含的語(yǔ)言學(xué)知識(shí)。而其中語(yǔ)音信號(hào)作為整個(gè)系統(tǒng)的輸入就顯得比較重要了。語(yǔ)音信號(hào)計(jì)算機(jī)中是采用PCM編碼按時(shí)間序列保存的一連串?dāng)?shù)據(jù)。計(jì)算機(jī)中最原始語(yǔ)音文件是wav,可以通過(guò)各種錄音軟件錄制,其中錄制通道表示很多音頻都有左右2個(gè)通道,在語(yǔ)音識(shí)別中通常有一個(gè)通道的數(shù)據(jù)就夠了。
再來(lái)說(shuō)說(shuō)我們做信號(hào)處理的目的----獲得頻率成分的分布,而語(yǔ)音作為非平穩(wěn)信號(hào)要實(shí)現(xiàn)就要通過(guò)分幀來(lái)實(shí)現(xiàn)。這時(shí)候還有一個(gè)操作叫做加窗,加窗的目的是讓一幀信號(hào)的幅度在兩端漸變到 0。漸變對(duì)傅里葉變換有好處,可以提高變換結(jié)果的分辨率。加窗的代價(jià)是一幀信號(hào)兩端的部分被削弱了,沒(méi)有像中央的部分那樣得到重視。彌補(bǔ)的辦法是,幀不要背靠背地截取,而是相互重疊一部分。
這樣通常加窗之后我們可以實(shí)現(xiàn)特征數(shù)的降維以及提取出比原始語(yǔ)音更具表征力的特征。以上可以理解為若干幀對(duì)應(yīng)一個(gè)音素,若干音素對(duì)應(yīng)一個(gè)單詞,如果我們想要識(shí)別對(duì)應(yīng)的單詞狀態(tài),我們只要知道對(duì)應(yīng)的幀狀態(tài)就行,用計(jì)算機(jī)能識(shí)別的方式最簡(jiǎn)單的就是概率匹配,這些概率我們就可以通過(guò)聲學(xué)模型獲得,所以要做的就是通過(guò)訓(xùn)練獲得合適的模型參數(shù)以擬合好的匹配效果。
(五) 語(yǔ)音識(shí)別三步
語(yǔ)音識(shí)別大體上包含前端處理,特征提取,模型訓(xùn)練,解碼四個(gè)模塊。其中前端處理包括了,語(yǔ)音轉(zhuǎn)碼,高通濾波,端點(diǎn)檢測(cè)等。
上圖是目前語(yǔ)音識(shí)別的基本流程,輸入的語(yǔ)音數(shù)據(jù)流經(jīng)過(guò)前端處理(語(yǔ)音格式轉(zhuǎn)碼,高通,端點(diǎn)檢測(cè)),語(yǔ)音格式轉(zhuǎn)碼是將輸入的語(yǔ)音數(shù)據(jù)轉(zhuǎn)成pcm或者wav格式的語(yǔ)音,端點(diǎn)檢測(cè)是檢測(cè)出轉(zhuǎn)碼后語(yǔ)音中的有效語(yǔ)音,這樣對(duì)解碼速度和識(shí)別率上都會(huì)改善。經(jīng)過(guò)前端處理之后的得到的分段語(yǔ)音數(shù)據(jù)送入特征提取模塊,進(jìn)行聲學(xué)特征提取。最后解碼模塊對(duì)提取的特征數(shù)據(jù)進(jìn)行解碼,解碼過(guò)程中利用發(fā)音字典,聲學(xué)模型,語(yǔ)言模型等信息構(gòu)建WFST搜索空間,在搜索空間內(nèi)尋找匹配概率最大的最優(yōu)路徑,便得到最優(yōu)的識(shí)別結(jié)果。
(六) 主流聲學(xué)建模技術(shù)
近年來(lái),隨著深度學(xué)習(xí)的興起,使用了接近30年的語(yǔ)音識(shí)別聲學(xué)模型HMM(隱馬爾科夫模型)逐漸被DNN(泛指深度神經(jīng)網(wǎng)絡(luò))所替代,模型精度也有了突飛猛進(jìn)的變化,整體來(lái)看聲學(xué)建模技術(shù)從建模單元、模型結(jié)構(gòu)、建模流程等三個(gè)維度都有了比較明顯的變化。其中,深度神經(jīng)網(wǎng)絡(luò)超強(qiáng)的特征學(xué)習(xí)能力大大簡(jiǎn)化了特征抽取的過(guò)程,降低了建模對(duì)于專(zhuān)家經(jīng)驗(yàn)的依賴(lài),因此建模流程逐步從之前復(fù)雜多步的流程轉(zhuǎn)向了簡(jiǎn)單的端到端的建模流程,由此帶來(lái)的影響是建模單元逐步從狀態(tài)、三音素模型向音節(jié)、字等較大單元演進(jìn),模型結(jié)構(gòu)從經(jīng)典的GMM-HMM向DNN+CTC(DNN泛指深度神經(jīng)網(wǎng)絡(luò))轉(zhuǎn)變,演進(jìn)的中間態(tài)是DNN-HMM的混合模型結(jié)構(gòu)。
(七) 混合高斯模型(GMM)
讓我們先來(lái)看看GMM混合高斯模型。簡(jiǎn)單來(lái)說(shuō),當(dāng)使用混合高斯隨機(jī)變量的分布用于匹配真實(shí)世界的數(shù)據(jù),比如語(yǔ)音特征時(shí),就形成了混合高斯模型。GMM作為描述基于傅里葉頻譜語(yǔ)音特征的統(tǒng)計(jì)模型,在傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)建模中發(fā)揮了重要作用。GMM的優(yōu)勢(shì)使得期望最大化算法可以被有效地用來(lái)訓(xùn)練模型,以更好的匹配語(yǔ)音特征。原始的語(yǔ)音數(shù)據(jù)經(jīng)過(guò)變換后會(huì)成為特征序列,在忽略時(shí)序信息的條件下,GMM就非常適合擬合這樣的語(yǔ)音特征。也就是說(shuō),可以以幀為單位,用GMM對(duì)語(yǔ)音特征進(jìn)行建模。
(八) 通信模型(HMM)
但是呢?如果把語(yǔ)音順序信息考慮進(jìn)去,GMM就不再是一個(gè)好模型了,因?yàn)樗话魏雾樞蛐畔ⅰ_@時(shí)隱馬爾可夫模型就更加通用了,因?yàn)樗梢詫?duì)時(shí)序信息進(jìn)行建模。但其實(shí),當(dāng)給定HMM的一個(gè)狀態(tài)后,若要對(duì)屬于該狀態(tài)的語(yǔ)音特征向量的概率分布進(jìn)行建模,GMM仍不失為一個(gè)好的模型。使用GMM對(duì)HMM每個(gè)狀態(tài)的語(yǔ)音特征分布進(jìn)行建模,有許多明顯的優(yōu)勢(shì)。只要混合的高斯分布足夠多,那么GMM可以擬合任意精度的概率分布,并且他可以通過(guò)EM算法很容易擬合數(shù)據(jù)。GMM參數(shù)通過(guò)EM算法的優(yōu)化,可以使其在訓(xùn)練數(shù)據(jù)上生成語(yǔ)音觀察特征的概率最大化,在此基礎(chǔ)上,若通過(guò)鑒別性訓(xùn)練,基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率可以得到顯著提升。盡管GMM有著眾多優(yōu)勢(shì),但它也有一個(gè)嚴(yán)重的不足,那就是GMM不能有效地對(duì)呈非線性或近似非線性的數(shù)據(jù)進(jìn)行建模。這就意味著隱藏在語(yǔ)音特征下的真正結(jié)構(gòu)的復(fù)雜度,比直接描述現(xiàn)有特征,使其作為語(yǔ)音聲學(xué)模型的能力比GMM更好,我們要求這種模型要能更加有效地挖掘隱藏在長(zhǎng)窗寬語(yǔ)音幀中的信息。這時(shí)我們就可以將隨機(jī)變量的概念延伸到隨機(jī)序列,它可以是離散的也可以是連續(xù)的,非常符合我們的要求,而這種狀態(tài)就是馬爾可夫序列的基本狀態(tài),由它衍生出的模型叫做HMM隱馬爾可夫模型。大家現(xiàn)在看到的這整個(gè)結(jié)構(gòu)就是一個(gè)典型的通信系統(tǒng),而這種系統(tǒng)就特別適合隱馬爾科夫模型來(lái)進(jìn)行估計(jì)計(jì)算了。那么下節(jié)課我們就會(huì)把重點(diǎn)放在HMM上來(lái)做介紹。
本文章就到這里暫時(shí)告一個(gè)段落,我們下一篇文章再見(jiàn)。
免責(zé)聲明: 本文章轉(zhuǎn)自其它平臺(tái),并不代表本站觀點(diǎn)及立場(chǎng)。若有侵權(quán)或異議,請(qǐng)聯(lián)系我們刪除。謝謝! |
微信咨詢(xún)客服