本地離線語音識別控制如何實現(xiàn)?
發(fā)布日期:2022-01-24
點擊次數(shù):2335
隨著離線語音行業(yè)的發(fā)展,生產(chǎn)廠家總結(jié)出了離線語音識別的較為完善的解決方案,在進行一些口音問題時,可以通過不同的需求使用不同的模型,如果是全國范圍內(nèi)的出售,那就可以使用音素模型,如果只是在某地出售,那就可以使用整詞模型。對于噪音問題,可以讓聲學前端先處理,然后再去語音識別模塊去進行處理,這樣可以有效的減少噪音的影響,提高識別率。下面由輕生活科技小編繼續(xù)跟大家聊聊天吧!
想要快速的完成命令詞的錄入,那么就會使用到深度神經(jīng)網(wǎng)絡語音識別技術;離線語音模塊中,需要錄入數(shù)量挺多的操作命令詞,想要做到跟喚醒詞差不多的特訓,那就會使得成本加大,并且工作量會增加。如果是命令詞眾多的,那就可以使用深度神經(jīng)網(wǎng)絡語音識別技術,首先從語音的輸入開始,然后到語音檢測、語音語音特征的提取以及DNN運算采用硬件架構設計,軟件進行語音解碼,這樣可以有高識別率以及高實時性,這樣的效果可達直接商用的程度。
如果有大量指令詞,那么使用TDNN、DNN等語音識別商務的算法,然后跟完整的語法文件相組合,這樣能快速的讓指令詞達到可商用的程度,后續(xù)的話,也可以通過一些語音大腦模組,進行動態(tài)更新識別指令集,保持離線識別的準確率。
一般離線語音的語音庫都集中在IC之中,這樣可以更加快速便捷的讓用戶進行語音控制,但是,這會增加硬件的一個成本,所以很多生產(chǎn)廠家都會去找尋那些價格實惠,性價比高且不影響語音識別性能的IC。
而想要降低離線語音IC的成本,那就得從多方面去考慮,重要的是芯片,而芯片里面的外圍電路是比較重要的部分,而算法也是比較重要的,如果算法能后的到進一步的提升,那么算力的占用空間就越來越少?,F(xiàn)在芯片的集成程度都比較高,外圍電路也相對簡單一些,成本也是會低一些。可以通過語音識別專用的硬件來進行加速的推演算法,這樣也可以降低IC的一個成本。
免責聲明: 本文章轉(zhuǎn)自其它平臺,并不代表本站觀點及立場。若有侵權或異議,請聯(lián)系我們刪除。謝謝! |