Support

Technology

Design

Contact Us

	Miss Yu
	13823761625 0755-27595155
	Sales@ChipSourceTek.com
	Room302,building A3,MingXi Creative Park,FuYongHuaiDe,Bao‘An District.ShenZhen

You are here：Home >> Support >> Technology

Technology

Analysis of speech recognition technology

Time:2021-12-13 Views:2493

本文轉(zhuǎn)自ZLG致遠(yuǎn)電子

語言作為人類的一種基本交流方式，在數(shù)千年歷史中得到持續(xù)傳承。近年來，語音識別技術(shù)的不斷成熟，已廣泛應(yīng)用于我們的生活當(dāng)中，成為人與機(jī)器通過自然語言交互重要方式之一。語音識別技術(shù)是如何讓機(jī)器“聽懂”人類語言？

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，人們對機(jī)器的依賴已經(jīng)達(dá)到一個(gè)極高的程度。語音識別技術(shù)使得人與機(jī)器通過自然語言交互成為可能。最常見的情形是通過語音控制房間燈光、空調(diào)溫度和電視的相關(guān)操作等。并且，移動互聯(lián)網(wǎng)、智能家居、汽車、醫(yī)療和教育等領(lǐng)域的應(yīng)用帶動智能語音產(chǎn)業(yè)規(guī)模持續(xù)快速增長，2018年全球智能語音市場規(guī)模將達(dá)到141．1億美元。

（數(shù)據(jù)來源：中商產(chǎn)業(yè)研究院整理）

目前，在全球智能語音市場占比情況中，各巨頭市場占有率由大到小依次為：Nuance、谷歌、蘋果、微軟和科大訊飛等。

（數(shù)據(jù)來源：中商產(chǎn)業(yè)研究院整理）

語音識別的本質(zhì)就是將語音序列轉(zhuǎn)換為文本序列，其常用的系統(tǒng)框架如下：

接下來對語音識別相關(guān)技術(shù)進(jìn)行介紹，為了便于整體理解，首先，介紹語音前端信號處理的相關(guān)技術(shù)，然后，解釋語音識別基本原理，并展開到聲學(xué)模型和語言模型的敘述。

1.前端信號處理

前端的信號處理是對原始語音信號進(jìn)行的相關(guān)處理，使得處理后的信號更能代表語音的本質(zhì)特征，相關(guān)技術(shù)點(diǎn)如下表所述：

1、語音活動檢測

語音活動檢測（Voice Activity Detection， VAD）用于檢測出語音信號的起始位置，分離出語音段和非語音（靜音或噪聲）段。VAD算法大致分為三類：基于閾值的VAD、基于分類器的VAD和基于模型的VAD。

基于閾值的VAD是通過提取時(shí)域（短時(shí)能量、短時(shí)過零率等）或頻域（MFCC、譜熵等）特征，通過合理的設(shè)置門限，達(dá)到區(qū)分語音和非語音的目的；

基于分類的VAD是將語音活動檢測作為（語音和非語音）二分類，可以通過機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器，達(dá)到語音活動檢測的目的；

基于模型的VAD是構(gòu)建一套完整的語音識別模型用于區(qū)分語音段和非語音段，考慮到實(shí)時(shí)性的要求，并未得到實(shí)際的應(yīng)用。

2、降噪

在生活環(huán)境中通常會存在例如空調(diào)、風(fēng)扇等各種噪聲，降噪算法目的在于降低環(huán)境中存在的噪聲，提高信噪比，進(jìn)一步提升識別效果。

常用降噪算法包括自適應(yīng)LMS和維納濾波等。

3、回聲消除

回聲存在于雙工模式時(shí)，麥克風(fēng)收集到揚(yáng)聲器的信號，比如在設(shè)備播放音樂時(shí)，需要用語音控制該設(shè)備的場景。

回聲消除通常使用自適應(yīng)濾波器實(shí)現(xiàn)的，即設(shè)計(jì)一個(gè)參數(shù)可調(diào)的濾波器，通過自適應(yīng)算法（LMS、NLMS等）調(diào)整濾波器參數(shù)，模擬回聲產(chǎn)生的信道環(huán)境，進(jìn)而估計(jì)回聲信號進(jìn)行消除。

4、混響消除

語音信號在室內(nèi)經(jīng)過多次反射之后，被麥克風(fēng)采集，得到的混響信號容易產(chǎn)生掩蔽效應(yīng)，會導(dǎo)致識別率急劇惡化，需要在前端處理。

混響消除方法主要包括：基于逆濾波方法、基于波束形成方法和基于深度學(xué)習(xí)方法等。

5、聲源定位

麥克風(fēng)陣列已經(jīng)廣泛應(yīng)用于語音識別領(lǐng)域，聲源定位是陣列信號處理的主要任務(wù)之一，使用麥克風(fēng)陣 ** 定說話人位置，為識別階段的波束形成處理做準(zhǔn)備。

聲源定位常用算法包括：基于高分辨率譜估計(jì)算法（如MUSIC算法），基于聲達(dá)時(shí)間差（TDOA）算法，基于波束形成的最小方差無失真響應(yīng)（MVDR）算法等。

6、波束形成

波束形成是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各個(gè)麥克風(fēng)輸出信號，經(jīng)過處理（如加權(quán)、時(shí)延、求和等）形成空間指向性的方法，可用于聲源定位和混響消除等。

波束形成主要分為：固定波束形成、自適應(yīng)波束形成和后置濾波波束形成等。

2.語音識別的基本原理

已知一段語音信號，處理成聲學(xué)特征向量之后表示為，其中表示一幀數(shù)據(jù)的特征向量，將可能的文本序列表示為，其中表示一個(gè)詞。語音識別的基本出發(fā)點(diǎn)就是求，即求出使最大化的文本序列。將通過貝葉斯公式表示為：

其中，稱之為聲學(xué)模型，稱之為語言模型。大多數(shù)的研究將聲學(xué)模型和語言模型分開處理，并且，不同廠家的語音識別系統(tǒng)主要體現(xiàn)在聲學(xué)模型的差異性上面。此外，基于大數(shù)據(jù)和深度學(xué)習(xí)的端到端（End－to－End）方法也在不斷發(fā)展，它直接計(jì)算，即將聲學(xué)模型和語言模型作為整體處理。本文主要對前者進(jìn)行介紹。

3.聲學(xué)模型

聲學(xué)模型是將語音信號的觀測特征與句子的語音建模單元聯(lián)系起來，即計(jì)算。我們通常使用隱馬爾科夫模型（Hidden Markov Model，HMM）解決語音與文本的不定長關(guān)系，比如下圖的隱馬爾科夫模型中。

將聲學(xué)模型表示為

其中，初始狀態(tài)概率和狀態(tài)轉(zhuǎn)移概率（、）可用通過常規(guī)統(tǒng)計(jì)的方法計(jì)算得出，發(fā)射概率（、、）可以通過混合高斯模型GMM或深度神經(jīng)網(wǎng)絡(luò)DNN求解。

傳統(tǒng)的語音識別系統(tǒng)普遍采用基于GMM－HMM的聲學(xué)模型，示意圖如下：

其中，表示狀態(tài)轉(zhuǎn)移概率，語音特征表示，通過混合高斯模型GMM建立特征與狀態(tài)之間的聯(lián)系，從而得到發(fā)射概率，并且，不同的狀態(tài)對應(yīng)的混合高斯模型參數(shù)不同。

基于GMM－HMM的語音識別只能學(xué)習(xí)到語音的淺層特征，不能獲取到數(shù)據(jù)特征間的高階相關(guān)性，DNN－HMM利用DNN較強(qiáng)的學(xué)習(xí)能力，能夠提升識別性能，其聲學(xué)模型示意圖如下：

GMM－HMM和DNN－HMM的區(qū)別在于用DNN替換GMM來求解發(fā)射概率，GMM－HMM模型優(yōu)勢在于計(jì)算量較小且效果不俗。DNN－HMM模型提升了識別率，但對于硬件的計(jì)算能力要求較高。因此，模型的選擇可以結(jié)合實(shí)際的應(yīng)用調(diào)整。

4.語言模型

語言模型與文本處理相關(guān)，比如我們使用的智能輸入法，當(dāng)我們輸入“nihao”，輸入法候選詞會出現(xiàn)“你好”而不是“尼毫”，候選詞的排列參照語言模型得分的高低順序。

語音識別中的語言模型也用于處理文字序列，它是結(jié)合聲學(xué)模型的輸出，給出概率最大的文字序列作為語音識別結(jié)果。由于語言模型是表示某一文字序列發(fā)生的概率，一般采用鏈?zhǔn)椒▌t表示，如是由組成，則可由條件概率相關(guān)公式表示為：

由于條件太長，使得概率的估計(jì)變得困難，常見的做法是認(rèn)為每個(gè)詞的概率分布只依賴于前幾個(gè)出現(xiàn)的詞語，這樣的語言模型成為n－gram模型。在n－gram模型中，每個(gè)詞的概率分布只依賴于前面n－1個(gè)詞。例如在trigram（n取值為3）模型，可將上式化簡：

集道信息專業(yè)從事Polycom 寶利通視頻會議/華為視頻會議系統(tǒng)/東微智能產(chǎn)品，主要向客戶提供遠(yuǎn)程視頻會議系統(tǒng)、音視頻系統(tǒng)、統(tǒng)一協(xié)作辦公系統(tǒng)、服務(wù)器網(wǎng)絡(luò)系統(tǒng)、數(shù)據(jù)中心機(jī)房系統(tǒng)、云計(jì)算數(shù)字辦公系統(tǒng)、企業(yè)基礎(chǔ)應(yīng)用系統(tǒng)、展覽展示舞臺機(jī)械系統(tǒng)等行業(yè)解決方案。

免責(zé)聲明：本文章轉(zhuǎn)自其它平臺，并不代表本站觀點(diǎn)及立場。若有侵權(quán)或異議，請聯(lián)系我們刪除。謝謝！
矽源特科技ChipSourceTek

Previous：CST118S is widely used in a wireless charging mobile toothbrush scheme 2021/08/02

Next：What is speech recognition technology? Introduction to basic methods of speech recognition [picture and text] 2021/12/12

精品国产sm全部网站免费_日韩精品毛片_推荐高清免费不卡网站_亚洲无码人成电影在线观看_一本伊大人香蕉久久網手機_福利视频你懂得_亚洲欧美曰韩在线_成年男女免费网站点播_成年人播放一级片高清_亚洲视频在线视频

Home

About Us

Products

Download

News

Support

Application

Contact Us

Support

Contact Us

Technology

Analysis of speech recognition technology