語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統(tǒng)能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。目前,模式匹配原理已經被應用于大多數語音識別系統(tǒng)中。
一般的模式識別包括預處理,特征提取,模式匹配等基本模塊。首先對輸入語音進行預處理,其中預處理包括分幀,加窗,預加重等。其次是特征提取,因此選擇合適的特征參數尤為重要。常用的特征參數包括:基音周期,共振峰,短時平均能量或幅度,線性預測系數(LPC),感知加權預測系數(PLP),短時平均過零率,線性預測倒譜系數(LPCC),自相關函數,梅爾倒譜系數(MFCC),小波變換系數,經驗模態(tài)分解系數(EMD),伽馬通濾波器系數(GFCC)等。在進行實際識別時,要對測試語音按訓練過程產生模板,最后根據失真判決準則進行識別。常用的失真判決準則有歐式距離,協(xié)方差矩陣與貝葉斯距離等。