精品国产sm全部网站免费_日韩精品毛片_推荐高清免费不卡网站_亚洲无码人成电影在线观看_一本伊大人香蕉久久網手機_福利视频你懂得_亚洲欧美曰韩在线_成年男女免费网站点播_成年人播放一级片高清_亚洲视频在线视频

服務(wù)熱線: 13823761625

方案設(shè)計技術(shù)分享

聯(lián)系我們

當(dāng)前位置:網(wǎng)站首頁 >> 方案設(shè)計技術(shù)分... >> 技術(shù)分享

技術(shù)分享

智能語音識別技術(shù)入門系列(上)

發(fā)布日期:2021-12-22 點(diǎn)擊次數(shù):2435

 本系列文章開始,我們將一起探索自動語音識別、語言處理技術(shù)所包含的核心算法、模型及未來的發(fā)展趨勢。本篇文章我們主要討論語音識別的基本概念。并理解語音識別技術(shù)的流程。

  

  (一) 自動語音識別技術(shù)ASR

  自動語音識別,簡稱ASR。這項技術(shù)是使人與人,人與機(jī)器更順暢交流的關(guān)鍵技術(shù)。

  隨著人們對生活的儀式感的追求,移動設(shè)備、可穿戴設(shè)備、智能家居設(shè)備、車載信息娛樂系統(tǒng)也變得越來越流行。在這些設(shè)備和系統(tǒng)上,以往鼠標(biāo)、鍵盤這樣的交互方式就不再延續(xù)像用在電腦上一樣的便捷性了。而語音作為人類之間自然的交流方式,在這些設(shè)備和系統(tǒng)上就成為了更受歡迎的交互方式了。

      

  如果有一個語音到語音翻譯系統(tǒng)其實就可以完美消除這個交流壁壘。這樣的話就算語言不通人們也可以自由地進(jìn)行交流。比如我們現(xiàn)在這里看到的就是一個典型的語音到語音的翻譯系統(tǒng),可以看到,語音識別是這個流水過程中的第一環(huán)。

  

  (二) 人機(jī)交流場景

  我們說語音技術(shù)可以極大地提升人機(jī)交流的能力,其中最流行的應(yīng)用場景就有大家所熟知的語音搜索、個人數(shù)碼助理、游戲、起居室交互系統(tǒng)和車載信息娛樂系統(tǒng)。

  對于語音搜索而言,它能使用戶直接通過語音來搜索餐館、行駛路線和商品評價的信息。這極大地簡化了用戶輸入搜索請求的方式。目前,語音搜索類的應(yīng)用在各類品牌和系統(tǒng)的手機(jī)上都已非常流行。

  第二個個人數(shù)碼助理已經(jīng)作為原型產(chǎn)品出現(xiàn)了十年,siri系統(tǒng)就是從它變得流行起來的。自那以后,都發(fā)布了類似的產(chǎn)品。我們把這種系統(tǒng)簡稱PDA。PDA系統(tǒng)知曉我們在移動設(shè)備上的信息,了解一些常識并記錄了用戶與系統(tǒng)的交互歷史。有了這些信息后,PDA可以更好的服務(wù)用戶。比如,可以完成撥打電話、回答問題和音樂搜索等工作。而用戶所需要做的只是直接向系統(tǒng)發(fā)出語音指令即可。

  在融合語音技術(shù)之后,游戲的體驗將得到很大的提升。例如,玩家可以和游戲角色對話以詢問信息或者發(fā)出指令。

  最后,起居室交互系統(tǒng)和車載信息娛樂信息在功能上十分相似。這種系統(tǒng)允許用戶使用語音與之交互,我們可以通過他們來播放音樂、詢問信息或者控制系統(tǒng)。當(dāng)然,由于這些系統(tǒng)的使用條件不同,設(shè)計這樣的系統(tǒng)時會遇到不同的挑戰(zhàn)。

  

  (三) 語音對話系統(tǒng)的組成

  在上述的所有應(yīng)用場景和系統(tǒng)討論的都是語音對話系統(tǒng)。如下圖所示,語音對話系統(tǒng)通常包括四個主要組成部分的一個或多個:語音識別系統(tǒng)將語音轉(zhuǎn)化為文本、語音理解系統(tǒng)提取用戶說話的語義信息、文字轉(zhuǎn)語音系統(tǒng)將內(nèi)容轉(zhuǎn)化為語音、對話管理系統(tǒng)將前面的三個系統(tǒng)連接起來并完成與實際應(yīng)用場景的溝通。這些內(nèi)容對建立一個成功的語音對話系統(tǒng)都是很關(guān)鍵的,我們的關(guān)注重點(diǎn)主要是在語音識別系統(tǒng)。

  

    

  下面展示的語音識別系統(tǒng)的典型結(jié)構(gòu),語音識別系統(tǒng)主要由圖中四個部分組成:信號處理和特征提取、聲學(xué)模型、語言模型和解碼搜索部分。信號處理和特征提取部分是以音頻信號作為輸入,通過消除噪聲和信道失真對語音進(jìn)行增強(qiáng),為后面的聲學(xué)模型提取合適的有代表性的特征向量。聲學(xué)模型將聲學(xué)和發(fā)音學(xué)的知識進(jìn)行了融合,以特征提取部分生成的特征作為輸入,并為可變長特征序列生成聲學(xué)模型的分?jǐn)?shù)。語言模型估計通過從訓(xùn)練語料,通常是文本形式,學(xué)習(xí)詞之間的相互關(guān)系,來估計假設(shè)詞序列的可能性,又被稱作語言模型分?jǐn)?shù)。如果了解了領(lǐng)域或任務(wù)相關(guān)的先驗知識,語言模型分?jǐn)?shù)通常可以估計得更準(zhǔn)確。解碼搜索對給定的特征向量序列和若干假設(shè)詞序列計算聲學(xué)模型分?jǐn)?shù)和語言模型分?jǐn)?shù),將總體輸出分?jǐn)?shù)最高的詞序列當(dāng)做識別結(jié)果。在這里,我們主要討論聲學(xué)模型。

    

  關(guān)于聲學(xué)模型,有兩個主要問題,分別是不定長的特征向量序列和豐富多變的音頻信號。不定長的問題通常由動態(tài)時間規(guī)整方法和隱馬爾可夫模型方法來解決。而豐富多變性主要是由于說話的人的各種復(fù)雜特性,比如音色、風(fēng)格、速度等,還有加之環(huán)境噪聲、周圍人聲、方言差異等引起。所以,一個成功的語音識別系統(tǒng)必須能夠音符所有可能性的變化因素。

  

  

  這樣的話,我們從特定領(lǐng)域任務(wù)向真實應(yīng)用轉(zhuǎn)變時,就會遇到一些困難。就像上圖當(dāng)中所展示的,一個時下實際的語音識別系統(tǒng)需要處理大量的詞匯,可能是數(shù)百萬量級的,自由式對話,帶噪聲的遠(yuǎn)場自發(fā)語音和多語言混合的問題。由于有了真實世界任務(wù)的需求,當(dāng)今正在解決的語音識別相關(guān)的問題,如最右側(cè)所示,就比過去已經(jīng)解決的問題要難很多。

  

  (四) 傳統(tǒng)聲學(xué)模型

  下面我們就來介紹一下傳統(tǒng)的聲學(xué)模型。語音識別建模對語音識別來說是不可或缺的一部分,因為不同的建模技術(shù)通常意味著不同的識別性能,所以這是各個語音識別團(tuán)隊重點(diǎn)優(yōu)化的方向。也正是因為如此,語音識別的模型也層出不窮,在聲學(xué)模型里面又涵蓋了HMM、DNN、RNN等模型。簡單來說,聲學(xué)模型的任務(wù)就是描述語音的物理變化規(guī)律,而語言模型則表達(dá)了自然語言包含的語言學(xué)知識。而其中語音信號作為整個系統(tǒng)的輸入就顯得比較重要了。語音信號計算機(jī)中是采用PCM編碼按時間序列保存的一連串?dāng)?shù)據(jù)。計算機(jī)中最原始語音文件是wav,可以通過各種錄音軟件錄制,其中錄制通道表示很多音頻都有左右2個通道,在語音識別中通常有一個通道的數(shù)據(jù)就夠了。

  

   

  再來說說我們做信號處理的目的----獲得頻率成分的分布,而語音作為非平穩(wěn)信號要實現(xiàn)就要通過分幀來實現(xiàn)。這時候還有一個操作叫做加窗,加窗的目的是讓一幀信號的幅度在兩端漸變到 0。漸變對傅里葉變換有好處,可以提高變換結(jié)果的分辨率。加窗的代價是一幀信號兩端的部分被削弱了,沒有像中央的部分那樣得到重視。彌補(bǔ)的辦法是,幀不要背靠背地截取,而是相互重疊一部分。

  這樣通常加窗之后我們可以實現(xiàn)特征數(shù)的降維以及提取出比原始語音更具表征力的特征。以上可以理解為若干幀對應(yīng)一個音素,若干音素對應(yīng)一個單詞,如果我們想要識別對應(yīng)的單詞狀態(tài),我們只要知道對應(yīng)的幀狀態(tài)就行,用計算機(jī)能識別的方式最簡單的就是概率匹配,這些概率我們就可以通過聲學(xué)模型獲得,所以要做的就是通過訓(xùn)練獲得合適的模型參數(shù)以擬合好的匹配效果。

  

  (五) 語音識別三步

  語音識別大體上包含前端處理,特征提取,模型訓(xùn)練,解碼四個模塊。其中前端處理包括了,語音轉(zhuǎn)碼,高通濾波,端點(diǎn)檢測等。

   

  

  上圖是目前語音識別的基本流程,輸入的語音數(shù)據(jù)流經(jīng)過前端處理(語音格式轉(zhuǎn)碼,高通,端點(diǎn)檢測),語音格式轉(zhuǎn)碼是將輸入的語音數(shù)據(jù)轉(zhuǎn)成pcm或者wav格式的語音,端點(diǎn)檢測是檢測出轉(zhuǎn)碼后語音中的有效語音,這樣對解碼速度和識別率上都會改善。經(jīng)過前端處理之后的得到的分段語音數(shù)據(jù)送入特征提取模塊,進(jìn)行聲學(xué)特征提取。最后解碼模塊對提取的特征數(shù)據(jù)進(jìn)行解碼,解碼過程中利用發(fā)音字典,聲學(xué)模型,語言模型等信息構(gòu)建WFST搜索空間,在搜索空間內(nèi)尋找匹配概率最大的最優(yōu)路徑,便得到最優(yōu)的識別結(jié)果。

  

  (六) 主流聲學(xué)建模技術(shù)

  

    

  近年來,隨著深度學(xué)習(xí)的興起,使用了接近30年的語音識別聲學(xué)模型HMM(隱馬爾科夫模型)逐漸被DNN(泛指深度神經(jīng)網(wǎng)絡(luò))所替代,模型精度也有了突飛猛進(jìn)的變化,整體來看聲學(xué)建模技術(shù)從建模單元、模型結(jié)構(gòu)、建模流程等三個維度都有了比較明顯的變化。其中,深度神經(jīng)網(wǎng)絡(luò)超強(qiáng)的特征學(xué)習(xí)能力大大簡化了特征抽取的過程,降低了建模對于專家經(jīng)驗的依賴,因此建模流程逐步從之前復(fù)雜多步的流程轉(zhuǎn)向了簡單的端到端的建模流程,由此帶來的影響是建模單元逐步從狀態(tài)、三音素模型向音節(jié)、字等較大單元演進(jìn),模型結(jié)構(gòu)從經(jīng)典的GMM-HMM向DNN+CTC(DNN泛指深度神經(jīng)網(wǎng)絡(luò))轉(zhuǎn)變,演進(jìn)的中間態(tài)是DNN-HMM的混合模型結(jié)構(gòu)。

  

  (七) 混合高斯模型(GMM)

  讓我們先來看看GMM混合高斯模型。簡單來說,當(dāng)使用混合高斯隨機(jī)變量的分布用于匹配真實世界的數(shù)據(jù),比如語音特征時,就形成了混合高斯模型。GMM作為描述基于傅里葉頻譜語音特征的統(tǒng)計模型,在傳統(tǒng)的語音識別系統(tǒng)的聲學(xué)建模中發(fā)揮了重要作用。GMM的優(yōu)勢使得期望最大化算法可以被有效地用來訓(xùn)練模型,以更好的匹配語音特征。原始的語音數(shù)據(jù)經(jīng)過變換后會成為特征序列,在忽略時序信息的條件下,GMM就非常適合擬合這樣的語音特征。也就是說,可以以幀為單位,用GMM對語音特征進(jìn)行建模。

  

  (八) 通信模型(HMM)

  

    

  但是呢?如果把語音順序信息考慮進(jìn)去,GMM就不再是一個好模型了,因為它不包含任何順序信息。這時隱馬爾可夫模型就更加通用了,因為它可以對時序信息進(jìn)行建模。但其實,當(dāng)給定HMM的一個狀態(tài)后,若要對屬于該狀態(tài)的語音特征向量的概率分布進(jìn)行建模,GMM仍不失為一個好的模型。使用GMM對HMM每個狀態(tài)的語音特征分布進(jìn)行建模,有許多明顯的優(yōu)勢。只要混合的高斯分布足夠多,那么GMM可以擬合任意精度的概率分布,并且他可以通過EM算法很容易擬合數(shù)據(jù)。GMM參數(shù)通過EM算法的優(yōu)化,可以使其在訓(xùn)練數(shù)據(jù)上生成語音觀察特征的概率最大化,在此基礎(chǔ)上,若通過鑒別性訓(xùn)練,基于GMM-HMM的語音識別系統(tǒng)的識別準(zhǔn)確率可以得到顯著提升。盡管GMM有著眾多優(yōu)勢,但它也有一個嚴(yán)重的不足,那就是GMM不能有效地對呈非線性或近似非線性的數(shù)據(jù)進(jìn)行建模。這就意味著隱藏在語音特征下的真正結(jié)構(gòu)的復(fù)雜度,比直接描述現(xiàn)有特征,使其作為語音聲學(xué)模型的能力比GMM更好,我們要求這種模型要能更加有效地挖掘隱藏在長窗寬語音幀中的信息。這時我們就可以將隨機(jī)變量的概念延伸到隨機(jī)序列,它可以是離散的也可以是連續(xù)的,非常符合我們的要求,而這種狀態(tài)就是馬爾可夫序列的基本狀態(tài),由它衍生出的模型叫做HMM隱馬爾可夫模型。大家現(xiàn)在看到的這整個結(jié)構(gòu)就是一個典型的通信系統(tǒng),而這種系統(tǒng)就特別適合隱馬爾科夫模型來進(jìn)行估計計算了。那么下節(jié)課我們就會把重點(diǎn)放在HMM上來做介紹。

  

  本文章就到這里暫時告一個段落,我們下一篇文章再見。

免責(zé)聲明: 本文章轉(zhuǎn)自其它平臺,并不代表本站觀點(diǎn)及立場。若有侵權(quán)或異議,請聯(lián)系我們刪除。謝謝!
    矽源特科技ChipSourceTek