方案設計技術(shù)分享

技術(shù)分享

方案展示

聯(lián)系我們

	俞小姐
	13823761625 0755-27595155
	Sales@ChipSourceTek.com
	深圳市寶安區(qū)福永街道懷德社區(qū)明禧創(chuàng)意園A3棟302室

當前位置：網(wǎng)站首頁 >> 方案設計技術(shù)分... >> 技術(shù)分享

技術(shù)分享

智能語音專題（三）：泛語音識別

發(fā)布日期:2021-12-27 點擊次數(shù):2418

《智能語音》專題第三章：泛語音識別。設備在獲取到語音信號之后，如何將其轉(zhuǎn)換為所需要識別的內(nèi)容（文本、符號、狀態(tài)、模式等等），完成“聽懂”這個過程。“聽懂”的標準應該如何定義，有哪些要點需要注意，在我們進行產(chǎn)品設計的時候應當如何處理，本文將為您解答。本專題之前章節(jié)參考：JimmyChen：智能語音專題（一）：智能語音交互的概念JimmyChen：智能語音專題（二）：語音信號處理

語音識別ASR（Auto Speech Recognition）負責將輸入的語音信號轉(zhuǎn)化為文本識別結(jié)果。

ASR拿到的語音信號一般是經(jīng)過VAD處理后的語音，音頻中的靜默、非語音的端頭和端尾部分應當已經(jīng)被切割掉。（語音開頭和結(jié)尾處的靜默語音是一定程度上能提升語音識別率的，尤其針對短句子。）

語音信號首先進行特征提取，將語音信息進行數(shù)字量化，聲學模型描述出語音的單個發(fā)音特點，發(fā)音詞典和語言模型描述出發(fā)音之間的關系，之后解碼器基于這兩個模型組合的所有可能組合，找到最優(yōu)解，給出最終的識別結(jié)果。

ASR功能劃分

核心模塊按功能劃分為以上部分，而語音信號中的從提取信息的數(shù)據(jù)流上分為以下部分。

語音信息流

整個語音識別的過程可以概況為兩個核心學科的綜合應用，一個是聲學，一個是語言學。

語音識別中的聲學

之前大量的篇章講了語音信號處理，基于聲學場景，增強我們需要識別的聲音，抑制我們不需要識別的聲音，怎么現(xiàn)在這里又要講聲學，有什么區(qū)別嗎？

當然有的，信號處理的聲學我們關注的是空間、聲源、噪音的相互影響，關注的是環(huán)境層面的聲學；而語音識別中的聲學，關注的是語音和語言中的聲學，覆蓋的是目標語言的聲學特點。

我們的每一個發(fā)音稱為“音素”，是語音中的最小單位，比如普通話發(fā)音中的元音，輔音。聲學模型通過將語音分幀，主要處理發(fā)音相關的工作，模型包含發(fā)聲的基本音素狀態(tài)和概率，覆蓋了目標語言中的聲學特點，識別語音中最小的“音素”，再由多個音素組成單詞，再由單詞組成文本句子。

“Hello”聲學處理示意圖

同樣的一句話，不同人、不同年紀、性別、口音、語速、音調(diào)產(chǎn)生的語音都是不同的，不同場景下安靜的，嘈雜，遠距離的語音也是不同的。同一句“Hello”，不同的人，不同場景下經(jīng)過聲學處理得到的特征信息，“音素”差異是非常大的，人也很難聽清楚你說的到底是Hello還是Hallo，這也就是聲學處理的一大難點。

聲學部分作為語音識別的入口，需要盡可能的覆蓋各種差異性語音，盡量采集多種場景，安靜的，嘈雜的，遠距離的發(fā)聲語料生成聲學模型，同時我們在做產(chǎn)品定位的時候一定要弄清楚應用的場景。一方面是用戶群體，人員結(jié)構(gòu)，口音等要求，例如兒童類語音產(chǎn)品大多需要針對兒童發(fā)音特點進行定制；另一方面是噪音疊加場景，距離等要求，例如車載ASR引擎供應商一般會疊加不同車速，車窗狀態(tài)的胎噪、風噪等噪音數(shù)據(jù)進行ASR的訓練。

不同語種、方言、場景之間可能發(fā)音上都有很大的差異，如果不能兼容，這時就需要考慮單獨針對語言或者口音定制，例如不同的方言會用不同的聲學模型，在提高精度的同時降低計算量。

語音識別中的語言學

ASR語言學部分同樣重要，ASR解碼器部分通過語言模型和發(fā)音詞典，在各種發(fā)音之間給出最有可能的文本識別結(jié)果。不同的語言，發(fā)音方式不同，詞匯不同，句型語法也存在差異。

例如漢語是一個單音節(jié)，多聲調(diào)的語言，只有400多個無調(diào)音節(jié)，帶調(diào)音節(jié)也只有1600多個，但常用的漢字卻有40000多，一音多字和一字多音的情況非常普遍。英語是多音節(jié)，比如說good morning，Good有兩個音節(jié)，morning也有兩個音節(jié)，也不會有分詞的問題，所以整體上英文的識別難度比中文要低。漢語識別難點

針對漢語普通話，語言學中影響ASR識別率的主要兩個點：

分詞：不同的分詞方式，會導致不同的識別結(jié)果。例如“等/幾首/需要/提前/多久？”和“登機/手續(xù)/要/提前/多久？”，雖說前句從語義上來說不太合理，但是后一句明顯也只有針對登機相關的場景才會這么說。同音字：一天下課，老師匆匆走進教室說：“來兩個人，我要班花。”大家覺得很好玩，尤其是男生們，很興奮，表現(xiàn)十分積極，經(jīng)過一番周折終于選出了兩個很漂亮的女生，老師大手一揮：“走，和我到教務處搬花。”

從上可以看出，語音識別需要結(jié)合語義場景和上下文才能達到一個最佳的效果，這是語言學應當解決的問題，我們一定要知道語音交互時的主題和領域是什么，才不至于對牛彈琴。從產(chǎn)品應用層面，行業(yè)內(nèi)的解決方案：

針對各個垂直領域，通用、金融、醫(yī)療、稅務、車載等等區(qū)分不同的ASR，同時支持定制語言模型，額外收費。產(chǎn)品經(jīng)理梳理出需要的業(yè)務場景，尋找最優(yōu)的ASR方案。語音交互的業(yè)務流程中，例如有屏的語音交互場景，能夠限定或者知道用戶接下來會說什么，大概交互范圍是什么。ASR能夠支持個性化熱詞表，200-1000詞條的不等規(guī)模，應用中通過上傳對應的詞組和句式，定向的提升語音識別率。將ASR和NLP相結(jié)合，通過NLP語義和上下文理解，加權(quán)給出最終的識別結(jié)果。目前運算量和資源消耗都比較大，大多只做少量的糾正，無法達到完全的上下文理解。

整個語音識別基于統(tǒng)計結(jié)果，基于上下文，沒有100%的正確，也沒有萬能的ASR，離開測試集，別說識別率。各個廠商對外宣傳的97%的識別率，使用新聞播音的語音測試可以有95%的識別率，而網(wǎng)絡課程中針對編程、高數(shù)等領域的識別只有75%（老師通常帶口音）。

即使相同的語言，不同的地域也會體現(xiàn)差異：對應發(fā)音的變化、詞匯的變化和語法的變化，方言的支持通常意味著獨立的ASR。有時候市場上可能會有類似的要求，“我要產(chǎn)品能夠同時支持普通話、粵語、四川話、臺灣話、上海話等等，最好能夠自適應，用戶不管用什么方言自動識別出來。”這個從目前的技術(shù)現(xiàn)狀來說，無法通過單一的識別引擎做到。

方言和地域差異

針對英文有美國英語、加拿大英語、UK英語、澳洲英語、印度英語等等，上圖右方的是Google 針對不同英語對應的ASR識別引擎。

針對漢語有八大語系（方言），北方語系、吳語系、湘語系、贛語系、客家語系、閩南語系、閩東語系和粵語。

1、北方方言以北京話為代表，包括長江以北，鎮(zhèn)江以上九江以下的沿江地帶，四川、云南、貴州和湖北、湖南兩省的西北部，廣西西部、北部一帶。使用人口占漢族總?cè)藬?shù)的70 %以上。2、吳方言以蘇州話和上海話為代表，主要包括江蘇省長江以南、鎮(zhèn)江以東部分（鎮(zhèn)江不在內(nèi)）及長江以北靖江（除西南角新橋、東興等鄉(xiāng)）、南通（縣城金沙鎮(zhèn)及周圍鄉(xiāng)村）、海門（北部包場等12鄉(xiāng)）、啟東，浙江省大部分，上海市。使用人口占漢族總?cè)藬?shù)的8.4%左右。3、湘方言以長沙話為代表。分布在湖南省大部分地區(qū)。使用人口占漢族總?cè)藬?shù)的5%左右。4、贛方言贛方言以南昌話為代表。主要分布在江西?。|部沿江地帶和南部除外）和湖北省東南一帶。使用人口占漢族總?cè)藬?shù)的2.4%左右。5、客家方言客家方言是以梅州市區(qū)（梅江區(qū)、梅縣區(qū)）梅城口音的梅州話為代表。主要分布在廣東省東部、南部和北部，廣西省東南部，福建省西部，江西省南部，及湖南、四川的少數(shù)地區(qū)。使用人口占漢族總?cè)藬?shù)的4%左右。6、閩東方言閩東方言以福州話為代表，分布在福建省北部和臺灣省的一部分，通行于福建東部的福州十邑，寧德市和南平市部分地區(qū)，三明尤溪縣，臺灣地區(qū)的馬祖列島等地。使用人口占漢族總?cè)藬?shù)的1.2%左右。7、閩南方言閩南方言以廈門話為代表。分布在福建省南部，廣東省東部和海南島的一部分，以及臺灣省的大部分。南洋華僑也有不少人說閩南方言。使用人口占漢族總?cè)藬?shù)的3%左右。8、粵方言粵方言以廣州話為代表。分布在廣東省大部分地區(qū)和廣西省東南部。南洋及其他一些國家的華僑，大多數(shù)都說粵方言。使用人口占漢族總?cè)藬?shù)的5%左右。

這些差異都會在聲學模型、語言模型、發(fā)音詞典中體現(xiàn)。例如：四川話屬于北方語系，發(fā)音和普通話相似度很高，專有的四川話詞匯也比較少，所以大多普通話的ASR在加入了帶口音的數(shù)據(jù)之后能夠較好的支持四川話。而單獨的四川話識別引擎，語言模型可能和普通話差異不大，聲學模型和發(fā)音詞典則是完全只針對四川本地發(fā)音特點的支持，數(shù)據(jù)規(guī)模和成本等綜合考慮，通常這類方言識別引擎的成熟度是弱于普通話的。

粵語這類發(fā)音有很大差異的語言則無法在普通話引擎中做兼容，帶口音的普通話識別，方言的識別是兩個不同的命題。

前面把主要的聲學、語言學相關介紹之后，我們能夠?qū)SR的實現(xiàn)有了一個基本的了解，同時以上部分關注的都是對于識別率的影響，而除了識別率，ASR的處理耗時對于語音交互的體驗影響也非常大。當音頻輸入之后，ASR基于音頻給出識別結(jié)果，處理的耗時同音頻長度正相關，語音越長耗時越長。衡量ASR或者識別引擎的耗時，我們通常使用RTF指標，這個指標越小對應的耗時性能越好。

識別的耗時/語音長度 = 實時率（RTF），體現(xiàn)ASR的處理性能：800/1200 = 0.67

曾經(jīng)傳統(tǒng)的語音識別方式都是等用戶說完話，然后對應的語音上傳給ASR引擎進行識別，這就導致了語音交互的時延和用戶說話的長短強相關，體驗相對較差。在最近幾年由于算力和算法的持續(xù)提升，云端ASR服務能夠支持更多的計算量，云端引擎都會支持流式語音識別。即我們對設備說話的時候，引擎可以在開始說話第一個音傳入引擎之時就進行識別，不斷的輸出識別結(jié)果，不斷的校準，當用戶說完之后，VAD 檢測到用戶說話結(jié)束再由ASR輸出流式識別結(jié)果。

ASR耗時示例流式識別示例https:// ** .zhihu.com/video/

這樣做到了邊聽邊識別，語音識別的時延只和最小單元的處理時間有關（RTF小于1的情況下，ASR處理時延可以穩(wěn)定在一定區(qū)間），開始說話即有響應，結(jié)合ASR結(jié)果文本回顯的的可視化效果，能夠明顯改善語音交互體驗。（進一步的，我們還可以做到邊聽便理解，提升整個語音交互體驗，在后續(xù)章節(jié)詳細展開）

以上部分介紹了ASR的基本原理，聲學和語言學對于識別率的影響，不同方言的影響，時延對于交互體驗的影響，在產(chǎn)品應用過程中需要根據(jù)實際的需求、場景進行分析和定義，達到最優(yōu)的產(chǎn)品化語音識別效果。如果有對于技術(shù)細節(jié)想了解的更清楚的同學可以參考我之前的文章。

JimmyChen：語音交互（一）—— 語音識別

本章的標題稱為泛語音識別，因為我想進一步展開話題討論下語音識別還能做什么。從本質(zhì)上來說，語音識別為一種模式識別技術(shù)，輸入相應的音頻而得到期望的文本、符號、狀態(tài)和模式，ASR是一個廣義上的應用不應該只局限于獲得文本，在音頻當中我們還能夠獲得更多有價值的信息。

語音識別的泛應用

語音識別的泛應用，從聲學和語言學上找到特征，可以是純粹的聲學特征，也可以是結(jié)合在一起的文本特征，主要包含喚醒詞識別、命令詞識別、語種識別、聲紋識別、關鍵事件監(jiān)測等等應用。

喚醒詞識別、命令詞識別：可以理解為語音識別的簡化版，本質(zhì)都是做關鍵字識別（Key Word Spoting），基于輕量化的聲學模型，以及個位數(shù)級別的喚醒詞（語言模型），期望低功耗的快速響應，完成設備從休眠到等待語音指令狀態(tài)的快速切換，喚醒設備。關鍵事件檢測：識別聲音特征，檢測音頻流當中的特殊事件，用來獲取環(huán)境相關事件信息，未來可以進一步的補充用戶交互的環(huán)境信息。例如嬰兒啼哭，狗叫，警報聲等關鍵事件，攔截喊麥、嬌喘、 ** 、A ** R等違法違規(guī)音頻。語種識別：在做ASR之前能夠判斷用戶是用的哪一種語言類型，再調(diào)用指定的ASR進行識別。目前的成熟度較低，除非語言的本身差異性較大，同時需要判斷的語言類型少，否則通常都需要1分種左右的語音才能準確判定。產(chǎn)品上如果確實需要類似的需求，可以考慮同時接多個不同語種的ASR引擎，將不同引擎的ASR結(jié)果再并行多語言NLP處理，基于語義輸出對應語言的結(jié)果。（成本較高）特征識別：情緒識別，識別聲音特征中的性別、年齡、情緒等等元素，謊言識別等等，除了性別識別準確率較高，其余部分目前主要處于研究階段，未達到可以產(chǎn)品化的成熟度。

最后單說目前應用較多的聲紋識別（支付寶和微信都已開通聲紋鎖，大家可以體驗），基于人在講話時使用的發(fā)聲器官在尺寸和形態(tài)方面每個人的差異很大，所以任何兩個人的聲紋圖譜都有差異。不同人的聲音在頻譜圖中共振峰的分布情況不同，聲紋識別正是通過比對兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個人。識別聲音特征，進行1:1和1:N的說話人聲紋特征識別，用于身份校驗或者身份辨別。

聲紋識別

聲紋識別主要包含聲紋注冊和聲紋識別兩個核心部分。

聲紋注冊：用戶通過長語音注冊，識別引擎提取聲紋特征并保存聲紋數(shù)據(jù)庫。聲紋識別：用戶提供語音，識別引擎提取聲紋特征比對聲紋數(shù)據(jù)庫，給出識別結(jié)果?；谔峁┳R別的語音文本和注冊的文本是否相同，分為文本無關和文本相關兩種常見?；诒葘r是做1:1比對，還是1:N檢索，分為1:1和1:N兩種不同的應用場景。文本相關場景：注冊文本同驗證文本相同的情況，準確性更高，針對高安全場景。文本無關場景：注冊文本和驗證文本不同的情況，自由度更高，針對個性化場景。1:1的場景在開卡、開戶、注冊、登錄、解鎖、支付等多場景下，進行聲紋比對，確保身份認證安全。1:N的場景在個性化推薦、門禁、考勤等場景下，進行聲紋檢索，根據(jù)用戶畫像精準匹配身份，實現(xiàn)業(yè)務效果。

聲紋識別視具體應用場景，提出不同的安全性要求，通常支付類和鎖類應用需要更高的安全級別。主要采用活體檢測，隨機驗證文本，抵御錄音重放攻擊。采用針對人工語音的非自然檢測模型識別波形拼接、語音合成等攻擊方式。

當我們要采用語音相關的技術(shù)方案時，基于我們的語音交互場景，需要使用不同的語音技術(shù)。如果制定選型標準，我們應該關注那些語音指標，哪些是會對我們的產(chǎn)品造成明確影響的，羅列以下供大家參考：

主要指標

希望通過此文能夠讓大家對泛語音識別有更好的了解。

免責聲明：本文章轉(zhuǎn)自其它平臺，并不代表本站觀點及立場。若有侵權(quán)或異議，請聯(lián)系我們刪除。謝謝！
矽源特科技ChipSourceTek

上一篇：CST118S在一種無線充電動牙刷方案上面廣泛應用 2021/08/02

下一篇：上拉電阻的阻值選擇原則 2021/12/26

精品国产sm全部网站免费_日韩精品毛片_推荐高清免费不卡网站_亚洲无码人成电影在线观看_一本伊大人香蕉久久網手機_福利视频你懂得_亚洲欧美曰韩在线_成年男女免费网站点播_成年人播放一级片高清_亚洲视频在线视频

網(wǎng)站首頁

關于我們

產(chǎn)品中心

資料下載

新聞資訊

方案設計技術(shù)分享

應用領域

聯(lián)系我們

方案設計技術(shù)分享

聯(lián)系我們

技術(shù)分享

智能語音專題（三）：泛語音識別