隨著離線語(yǔ)音行業(yè)的發(fā)展,生產(chǎn)廠家總結(jié)出了離線語(yǔ)音識(shí)別的較為完善的解決方案,在進(jìn)行一些口音問(wèn)題時(shí),可以通過(guò)不同的需求使用不同的模型,如果是全國(guó)范圍內(nèi)的出售,那就可以使用音素模型,如果只是在某地出售,那就可以使用整詞模型。對(duì)于噪音問(wèn)題,可以讓聲學(xué)前端先處理,然后再去語(yǔ)音識(shí)別模塊去進(jìn)行處理,這樣可以有效的減少噪音的影響,提高識(shí)別率。下面由輕生活科技小編繼續(xù)跟大家聊聊天吧!
想要快速的完成命令詞的錄入,那么就會(huì)使用到深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別技術(shù);離線語(yǔ)音模塊中,需要錄入數(shù)量挺多的操作命令詞,想要做到跟喚醒詞差不多的特訓(xùn),那就會(huì)使得成本加大,并且工作量會(huì)增加。如果是命令詞眾多的,那就可以使用深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別技術(shù),首先從語(yǔ)音的輸入開始,然后到語(yǔ)音檢測(cè)、語(yǔ)音語(yǔ)音特征的提取以及DNN運(yùn)算采用硬件架構(gòu)設(shè)計(jì),軟件進(jìn)行語(yǔ)音解碼,這樣可以有高識(shí)別率以及高實(shí)時(shí)性,這樣的效果可達(dá)直接商用的程度。
如果有大量指令詞,那么使用TDNN、DNN等語(yǔ)音識(shí)別商務(wù)的算法,然后跟完整的語(yǔ)法文件相組合,這樣能快速的讓指令詞達(dá)到可商用的程度,后續(xù)的話,也可以通過(guò)一些語(yǔ)音大腦模組,進(jìn)行動(dòng)態(tài)更新識(shí)別指令集,保持離線識(shí)別的準(zhǔn)確率。
一般離線語(yǔ)音的語(yǔ)音庫(kù)都集中在IC之中,這樣可以更加快速便捷的讓用戶進(jìn)行語(yǔ)音控制,但是,這會(huì)增加硬件的一個(gè)成本,所以很多生產(chǎn)廠家都會(huì)去找尋那些價(jià)格實(shí)惠,性價(jià)比高且不影響語(yǔ)音識(shí)別性能的IC。
而想要降低離線語(yǔ)音IC的成本,那就得從多方面去考慮,重要的是芯片,而芯片里面的外圍電路是比較重要的部分,而算法也是比較重要的,如果算法能后的到進(jìn)一步的提升,那么算力的占用空間就越來(lái)越少?,F(xiàn)在芯片的集成程度都比較高,外圍電路也相對(duì)簡(jiǎn)單一些,成本也是會(huì)低一些??梢酝ㄟ^(guò)語(yǔ)音識(shí)別專用的硬件來(lái)進(jìn)行加速的推演算法,這樣也可以降低IC的一個(gè)成本。