琅琊榜海宴小说,盗墓笔记小说txt下载,盗墓笔记小说全集

技術(shù)分享

智能語(yǔ)音識(shí)別技術(shù)入門(mén)系列（上）

發(fā)布時(shí)間：2021-12-22 00:00:00 瀏覽：2522次

本系列文章開(kāi)始，我們將一起探索自動(dòng)語(yǔ)音識(shí)別、語(yǔ)言處理技術(shù)所包含的核心算法、模型及未來(lái)的發(fā)展趨勢(shì)。本篇文章我們主要討論語(yǔ)音識(shí)別的基本概念。并理解語(yǔ)音識(shí)別技術(shù)的流程。

(一) 自動(dòng)語(yǔ)音識(shí)別技術(shù)ASR

自動(dòng)語(yǔ)音識(shí)別，簡(jiǎn)稱(chēng)ASR。這項(xiàng)技術(shù)是使人與人，人與機(jī)器更順暢交流的關(guān)鍵技術(shù)。

隨著人們對(duì)生活的儀式感的追求，移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居設(shè)備、車(chē)載信息娛樂(lè)系統(tǒng)也變得越來(lái)越流行。在這些設(shè)備和系統(tǒng)上，以往鼠標(biāo)、鍵盤(pán)這樣的交互方式就不再延續(xù)像用在電腦上一樣的便捷性了。而語(yǔ)音作為人類(lèi)之間自然的交流方式，在這些設(shè)備和系統(tǒng)上就成為了更受歡迎的交互方式了。

如果有一個(gè)語(yǔ)音到語(yǔ)音翻譯系統(tǒng)其實(shí)就可以完美消除這個(gè)交流壁壘。這樣的話就算語(yǔ)言不通人們也可以自由地進(jìn)行交流。比如我們現(xiàn)在這里看到的就是一個(gè)典型的語(yǔ)音到語(yǔ)音的翻譯系統(tǒng)，可以看到，語(yǔ)音識(shí)別是這個(gè)流水過(guò)程中的第一環(huán)。

(二) 人機(jī)交流場(chǎng)景

我們說(shuō)語(yǔ)音技術(shù)可以極大地提升人機(jī)交流的能力，其中最流行的應(yīng)用場(chǎng)景就有大家所熟知的語(yǔ)音搜索、個(gè)人數(shù)碼助理、游戲、起居室交互系統(tǒng)和車(chē)載信息娛樂(lè)系統(tǒng)。

對(duì)于語(yǔ)音搜索而言，它能使用戶(hù)直接通過(guò)語(yǔ)音來(lái)搜索餐館、行駛路線和商品評(píng)價(jià)的信息。這極大地簡(jiǎn)化了用戶(hù)輸入搜索請(qǐng)求的方式。目前，語(yǔ)音搜索類(lèi)的應(yīng)用在各類(lèi)品牌和系統(tǒng)的手機(jī)上都已非常流行。

第二個(gè)個(gè)人數(shù)碼助理已經(jīng)作為原型產(chǎn)品出現(xiàn)了十年，siri系統(tǒng)就是從它變得流行起來(lái)的。自那以后，都發(fā)布了類(lèi)似的產(chǎn)品。我們把這種系統(tǒng)簡(jiǎn)稱(chēng)PDA。PDA系統(tǒng)知曉我們?cè)谝苿?dòng)設(shè)備上的信息，了解一些常識(shí)并記錄了用戶(hù)與系統(tǒng)的交互歷史。有了這些信息后，PDA可以更好的服務(wù)用戶(hù)。比如，可以完成撥打電話、回答問(wèn)題和音樂(lè)搜索等工作。而用戶(hù)所需要做的只是直接向系統(tǒng)發(fā)出語(yǔ)音指令即可。

在融合語(yǔ)音技術(shù)之后，游戲的體驗(yàn)將得到很大的提升。例如，玩家可以和游戲角色對(duì)話以詢(xún)問(wèn)信息或者發(fā)出指令。

最后，起居室交互系統(tǒng)和車(chē)載信息娛樂(lè)信息在功能上十分相似。這種系統(tǒng)允許用戶(hù)使用語(yǔ)音與之交互，我們可以通過(guò)他們來(lái)播放音樂(lè)、詢(xún)問(wèn)信息或者控制系統(tǒng)。當(dāng)然，由于這些系統(tǒng)的使用條件不同，設(shè)計(jì)這樣的系統(tǒng)時(shí)會(huì)遇到不同的挑戰(zhàn)。

(三) 語(yǔ)音對(duì)話系統(tǒng)的組成

在上述的所有應(yīng)用場(chǎng)景和系統(tǒng)討論的都是語(yǔ)音對(duì)話系統(tǒng)。如下圖所示，語(yǔ)音對(duì)話系統(tǒng)通常包括四個(gè)主要組成部分的一個(gè)或多個(gè)：語(yǔ)音識(shí)別系統(tǒng)將語(yǔ)音轉(zhuǎn)化為文本、語(yǔ)音理解系統(tǒng)提取用戶(hù)說(shuō)話的語(yǔ)義信息、文字轉(zhuǎn)語(yǔ)音系統(tǒng)將內(nèi)容轉(zhuǎn)化為語(yǔ)音、對(duì)話管理系統(tǒng)將前面的三個(gè)系統(tǒng)連接起來(lái)并完成與實(shí)際應(yīng)用場(chǎng)景的溝通。這些內(nèi)容對(duì)建立一個(gè)成功的語(yǔ)音對(duì)話系統(tǒng)都是很關(guān)鍵的，我們的關(guān)注重點(diǎn)主要是在語(yǔ)音識(shí)別系統(tǒng)。

下面展示的語(yǔ)音識(shí)別系統(tǒng)的典型結(jié)構(gòu)，語(yǔ)音識(shí)別系統(tǒng)主要由圖中四個(gè)部分組成：信號(hào)處理和特征提取、聲學(xué)模型、語(yǔ)言模型和解碼搜索部分。信號(hào)處理和特征提取部分是以音頻信號(hào)作為輸入，通過(guò)消除噪聲和信道失真對(duì)語(yǔ)音進(jìn)行增強(qiáng)，為后面的聲學(xué)模型提取合適的有代表性的特征向量。聲學(xué)模型將聲學(xué)和發(fā)音學(xué)的知識(shí)進(jìn)行了融合，以特征提取部分生成的特征作為輸入，并為可變長(zhǎng)特征序列生成聲學(xué)模型的分?jǐn)?shù)。語(yǔ)言模型估計(jì)通過(guò)從訓(xùn)練語(yǔ)料，通常是文本形式，學(xué)習(xí)詞之間的相互關(guān)系，來(lái)估計(jì)假設(shè)詞序列的可能性，又被稱(chēng)作語(yǔ)言模型分?jǐn)?shù)。如果了解了領(lǐng)域或任務(wù)相關(guān)的先驗(yàn)知識(shí)，語(yǔ)言模型分?jǐn)?shù)通?？梢怨烙?jì)得更準(zhǔn)確。解碼搜索對(duì)給定的特征向量序列和若干假設(shè)詞序列計(jì)算聲學(xué)模型分?jǐn)?shù)和語(yǔ)言模型分?jǐn)?shù)，將總體輸出分?jǐn)?shù)最高的詞序列當(dāng)做識(shí)別結(jié)果。在這里，我們主要討論聲學(xué)模型。

關(guān)于聲學(xué)模型，有兩個(gè)主要問(wèn)題，分別是不定長(zhǎng)的特征向量序列和豐富多變的音頻信號(hào)。不定長(zhǎng)的問(wèn)題通常由動(dòng)態(tài)時(shí)間規(guī)整方法和隱馬爾可夫模型方法來(lái)解決。而豐富多變性主要是由于說(shuō)話的人的各種復(fù)雜特性，比如音色、風(fēng)格、速度等，還有加之環(huán)境噪聲、周?chē)寺?、方言差異等引起。所以，一個(gè)成功的語(yǔ)音識(shí)別系統(tǒng)必須能夠音符所有可能性的變化因素。

這樣的話，我們從特定領(lǐng)域任務(wù)向真實(shí)應(yīng)用轉(zhuǎn)變時(shí)，就會(huì)遇到一些困難。就像上圖當(dāng)中所展示的，一個(gè)時(shí)下實(shí)際的語(yǔ)音識(shí)別系統(tǒng)需要處理大量的詞匯，可能是數(shù)百萬(wàn)量級(jí)的，自由式對(duì)話，帶噪聲的遠(yuǎn)場(chǎng)自發(fā)語(yǔ)音和多語(yǔ)言混合的問(wèn)題。由于有了真實(shí)世界任務(wù)的需求，當(dāng)今正在解決的語(yǔ)音識(shí)別相關(guān)的問(wèn)題，如最右側(cè)所示，就比過(guò)去已經(jīng)解決的問(wèn)題要難很多。

(四) 傳統(tǒng)聲學(xué)模型

下面我們就來(lái)介紹一下傳統(tǒng)的聲學(xué)模型。語(yǔ)音識(shí)別建模對(duì)語(yǔ)音識(shí)別來(lái)說(shuō)是不可或缺的一部分，因?yàn)椴煌慕＜夹g(shù)通常意味著不同的識(shí)別性能，所以這是各個(gè)語(yǔ)音識(shí)別團(tuán)隊(duì)重點(diǎn)優(yōu)化的方向。也正是因?yàn)槿绱耍Z(yǔ)音識(shí)別的模型也層出不窮，在聲學(xué)模型里面又涵蓋了HMM、DNN、RNN等模型。簡(jiǎn)單來(lái)說(shuō)，聲學(xué)模型的任務(wù)就是描述語(yǔ)音的物理變化規(guī)律，而語(yǔ)言模型則表達(dá)了自然語(yǔ)言包含的語(yǔ)言學(xué)知識(shí)。而其中語(yǔ)音信號(hào)作為整個(gè)系統(tǒng)的輸入就顯得比較重要了。語(yǔ)音信號(hào)計(jì)算機(jī)中是采用PCM編碼按時(shí)間序列保存的一連串?dāng)?shù)據(jù)。計(jì)算機(jī)中最原始語(yǔ)音文件是wav，可以通過(guò)各種錄音軟件錄制，其中錄制通道表示很多音頻都有左右2個(gè)通道，在語(yǔ)音識(shí)別中通常有一個(gè)通道的數(shù)據(jù)就夠了。

再來(lái)說(shuō)說(shuō)我們做信號(hào)處理的目的----獲得頻率成分的分布，而語(yǔ)音作為非平穩(wěn)信號(hào)要實(shí)現(xiàn)就要通過(guò)分幀來(lái)實(shí)現(xiàn)。這時(shí)候還有一個(gè)操作叫做加窗，加窗的目的是讓一幀信號(hào)的幅度在兩端漸變到 0。漸變對(duì)傅里葉變換有好處，可以提高變換結(jié)果的分辨率。加窗的代價(jià)是一幀信號(hào)兩端的部分被削弱了，沒(méi)有像中央的部分那樣得到重視。彌補(bǔ)的辦法是，幀不要背靠背地截取，而是相互重疊一部分。

這樣通常加窗之后我們可以實(shí)現(xiàn)特征數(shù)的降維以及提取出比原始語(yǔ)音更具表征力的特征。以上可以理解為若干幀對(duì)應(yīng)一個(gè)音素，若干音素對(duì)應(yīng)一個(gè)單詞，如果我們想要識(shí)別對(duì)應(yīng)的單詞狀態(tài)，我們只要知道對(duì)應(yīng)的幀狀態(tài)就行，用計(jì)算機(jī)能識(shí)別的方式最簡(jiǎn)單的就是概率匹配，這些概率我們就可以通過(guò)聲學(xué)模型獲得，所以要做的就是通過(guò)訓(xùn)練獲得合適的模型參數(shù)以擬合好的匹配效果。

(五) 語(yǔ)音識(shí)別三步

語(yǔ)音識(shí)別大體上包含前端處理，特征提取，模型訓(xùn)練，解碼四個(gè)模塊。其中前端處理包括了，語(yǔ)音轉(zhuǎn)碼，高通濾波，端點(diǎn)檢測(cè)等。

上圖是目前語(yǔ)音識(shí)別的基本流程，輸入的語(yǔ)音數(shù)據(jù)流經(jīng)過(guò)前端處理（語(yǔ)音格式轉(zhuǎn)碼，高通，端點(diǎn)檢測(cè)），語(yǔ)音格式轉(zhuǎn)碼是將輸入的語(yǔ)音數(shù)據(jù)轉(zhuǎn)成pcm或者wav格式的語(yǔ)音，端點(diǎn)檢測(cè)是檢測(cè)出轉(zhuǎn)碼后語(yǔ)音中的有效語(yǔ)音，這樣對(duì)解碼速度和識(shí)別率上都會(huì)改善。經(jīng)過(guò)前端處理之后的得到的分段語(yǔ)音數(shù)據(jù)送入特征提取模塊，進(jìn)行聲學(xué)特征提取。最后解碼模塊對(duì)提取的特征數(shù)據(jù)進(jìn)行解碼，解碼過(guò)程中利用發(fā)音字典，聲學(xué)模型，語(yǔ)言模型等信息構(gòu)建WFST搜索空間，在搜索空間內(nèi)尋找匹配概率最大的最優(yōu)路徑，便得到最優(yōu)的識(shí)別結(jié)果。

(六) 主流聲學(xué)建模技術(shù)

近年來(lái)，隨著深度學(xué)習(xí)的興起，使用了接近30年的語(yǔ)音識(shí)別聲學(xué)模型HMM(隱馬爾科夫模型)逐漸被DNN(泛指深度神經(jīng)網(wǎng)絡(luò))所替代，模型精度也有了突飛猛進(jìn)的變化，整體來(lái)看聲學(xué)建模技術(shù)從建模單元、模型結(jié)構(gòu)、建模流程等三個(gè)維度都有了比較明顯的變化。其中，深度神經(jīng)網(wǎng)絡(luò)超強(qiáng)的特征學(xué)習(xí)能力大大簡(jiǎn)化了特征抽取的過(guò)程，降低了建模對(duì)于專(zhuān)家經(jīng)驗(yàn)的依賴(lài)，因此建模流程逐步從之前復(fù)雜多步的流程轉(zhuǎn)向了簡(jiǎn)單的端到端的建模流程，由此帶來(lái)的影響是建模單元逐步從狀態(tài)、三音素模型向音節(jié)、字等較大單元演進(jìn)，模型結(jié)構(gòu)從經(jīng)典的GMM-HMM向DNN+CTC（DNN泛指深度神經(jīng)網(wǎng)絡(luò)）轉(zhuǎn)變，演進(jìn)的中間態(tài)是DNN-HMM的混合模型結(jié)構(gòu)。

(七) 混合高斯模型（GMM）

讓我們先來(lái)看看GMM混合高斯模型。簡(jiǎn)單來(lái)說(shuō)，當(dāng)使用混合高斯隨機(jī)變量的分布用于匹配真實(shí)世界的數(shù)據(jù)，比如語(yǔ)音特征時(shí)，就形成了混合高斯模型。GMM作為描述基于傅里葉頻譜語(yǔ)音特征的統(tǒng)計(jì)模型，在傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)建模中發(fā)揮了重要作用。GMM的優(yōu)勢(shì)使得期望最大化算法可以被有效地用來(lái)訓(xùn)練模型，以更好的匹配語(yǔ)音特征。原始的語(yǔ)音數(shù)據(jù)經(jīng)過(guò)變換后會(huì)成為特征序列，在忽略時(shí)序信息的條件下，GMM就非常適合擬合這樣的語(yǔ)音特征。也就是說(shuō)，可以以幀為單位，用GMM對(duì)語(yǔ)音特征進(jìn)行建模。

(八) 通信模型（HMM）

但是呢？如果把語(yǔ)音順序信息考慮進(jìn)去，GMM就不再是一個(gè)好模型了，因?yàn)樗话魏雾樞蛐畔ⅰ＿@時(shí)隱馬爾可夫模型就更加通用了，因?yàn)樗梢詫?duì)時(shí)序信息進(jìn)行建模。但其實(shí)，當(dāng)給定HMM的一個(gè)狀態(tài)后，若要對(duì)屬于該狀態(tài)的語(yǔ)音特征向量的概率分布進(jìn)行建模，GMM仍不失為一個(gè)好的模型。使用GMM對(duì)HMM每個(gè)狀態(tài)的語(yǔ)音特征分布進(jìn)行建模，有許多明顯的優(yōu)勢(shì)。只要混合的高斯分布足夠多，那么GMM可以擬合任意精度的概率分布，并且他可以通過(guò)EM算法很容易擬合數(shù)據(jù)。GMM參數(shù)通過(guò)EM算法的優(yōu)化，可以使其在訓(xùn)練數(shù)據(jù)上生成語(yǔ)音觀察特征的概率最大化，在此基礎(chǔ)上，若通過(guò)鑒別性訓(xùn)練，基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率可以得到顯著提升。盡管GMM有著眾多優(yōu)勢(shì)，但它也有一個(gè)嚴(yán)重的不足，那就是GMM不能有效地對(duì)呈非線性或近似非線性的數(shù)據(jù)進(jìn)行建模。這就意味著隱藏在語(yǔ)音特征下的真正結(jié)構(gòu)的復(fù)雜度，比直接描述現(xiàn)有特征，使其作為語(yǔ)音聲學(xué)模型的能力比GMM更好，我們要求這種模型要能更加有效地挖掘隱藏在長(zhǎng)窗寬語(yǔ)音幀中的信息。這時(shí)我們就可以將隨機(jī)變量的概念延伸到隨機(jī)序列，它可以是離散的也可以是連續(xù)的，非常符合我們的要求，而這種狀態(tài)就是馬爾可夫序列的基本狀態(tài)，由它衍生出的模型叫做HMM隱馬爾可夫模型。大家現(xiàn)在看到的這整個(gè)結(jié)構(gòu)就是一個(gè)典型的通信系統(tǒng)，而這種系統(tǒng)就特別適合隱馬爾科夫模型來(lái)進(jìn)行估計(jì)計(jì)算了。那么下節(jié)課我們就會(huì)把重點(diǎn)放在HMM上來(lái)做介紹。

本文章就到這里暫時(shí)告一個(gè)段落，我們下一篇文章再見(jiàn)。

免責(zé)聲明：本文章轉(zhuǎn)自其它平臺(tái)，并不代表本站觀點(diǎn)及立場(chǎng)。若有侵權(quán)或異議，請(qǐng)聯(lián)系我們刪除。謝謝！
矽源特科技ChipSourceTek

關(guān)于我們: 公司簡(jiǎn)介榮譽(yù)資質(zhì) 辦公環(huán)境組織架構(gòu) 企業(yè)文化發(fā)展歷程

產(chǎn)品中心: 驅(qū)動(dòng)芯片音頻芯片充電管理鋰電保護(hù) MCU控制器 Mosfet DC-DC 無(wú)線產(chǎn)品類(lèi) OVP過(guò)壓保護(hù) 單鍵觸摸其他類(lèi)芯片

新聞資訊: 人才招聘公司新聞行業(yè)動(dòng)態(tài) 新品發(fā)布

聯(lián)系方式

深圳市寶安區(qū)福永街道懷德社區(qū)明禧創(chuàng)意園A3棟302室

服務(wù)熱線：13823761625

企業(yè)電話: 0755-27595155 27595165 27594792

商務(wù)聯(lián)系：俞小姐

手機(jī)： 138 2376 1625（俞小姐）

郵箱： Sales@ChipSourceTek.com InFo@ChipSourceTek.com

關(guān)注矽源特公眾號(hào)

矽源特微信客服

發(fā)送郵件
商務(wù)QQ客服
13823761625
微信咨詢(xún)客服

精品国产sm全部网站免费_日韩精品毛片_推荐高清免费不卡网站_亚洲无码人成电影在线观看_一本伊大人香蕉久久網手機_福利视频你懂得_亚洲欧美曰韩在线_成年男女免费网站点播_成年人播放一级片高清_亚洲视频在线视频

技術(shù)分享