How to get started with speech recognition
Time:2021-12-11
Views:2496
不請自來,最近剛好因為籌備JDD語音識別大賽在做這方面的研究。
語音識別,顧名思義,是利用機器將語音信號轉(zhuǎn)換成文本信息。比如被我們玩壞的Siri,京東的叮咚音箱,小米的小愛同學(xué),亞馬遜的Echo等。
想要從零開始搭建一個語音識別系統(tǒng),首先遇到的一個問題就是使用什么數(shù)據(jù)用來上手。一個有效的語音識別模型,通常需要幾百到幾千小時包含文本標(biāo)注的音頻文件作為訓(xùn)練數(shù)據(jù)。
目前在學(xué)術(shù)論文中比較常見的語音識別數(shù)據(jù)集,比如Switchboard,TIMIT,WSJ這些,都并不免費且價格高昂。
公開數(shù)據(jù)集中最常用的英文語料是LibriSpeech,其中包含了1000小時的16kHz有聲書錄音,并且經(jīng)過切割和整理成每條10秒左右的、經(jīng)過文本標(biāo)注的音頻文件,非常適合入門使用。
中文語料方面,目前公開的大規(guī)模語音識別數(shù)據(jù)集比較少見。清華大學(xué)開源過30小時的連續(xù)普通話語音數(shù)據(jù)庫THCHS-30,由大學(xué)生參與錄音獲得。
以上介紹的兩個公開語音數(shù)據(jù)集,都可在http:// ** .openslr.org免費下載。
另外,參加一些開放語音數(shù)據(jù)的算法比賽,也是中文語音識別項目入門的好途徑。比如我們今年主辦的京東金融對話語音識別大賽,首次開放了上千小時的中文客服對話語音數(shù)據(jù),并提供強大的GPU資源保障運算能力。比賽面向廣大的語音技術(shù)愛好者,高校學(xué)生,企業(yè)開發(fā)者,希望通過開放客服對話語音標(biāo)注數(shù)據(jù)(經(jīng)嚴(yán)格脫敏),專注于尋找最新、最強的語音識別算法,促進(jìn)語音技術(shù)的普及和發(fā)展,同時加強語音識別技術(shù)愛好者之間的交流與分享。
JDD空間站和語音識別大賽具體信息可查看文章:
JDD空間站首場邀請賽開賽,開放數(shù)千小時真實客服對話語音數(shù)據(jù)
最簡單的語音識別例如yes/no,整個識別的詞典范圍只有yes和no兩個單詞。
如果詞典范圍在擴大一些,例如數(shù)字識別,識別連續(xù)的 ** 數(shù)字。這兩種語音識別的任務(wù)都是相對簡單的。
而在對于電話錄音轉(zhuǎn)譯則要復(fù)雜得多,中文的語音識別詞典范圍可以達(dá)到6000多個漢字,而英語單詞則有 ** 000個單詞之多。
另外語音識別還可以從場景角度去分類,分為孤立詞識別(Isolated Word),連續(xù)語音識別(continuous speech),而連續(xù)語音識別又可以分為人機錄音和對話語音識別,人機對話是人對機器發(fā)聲,例如語音輸入法,而對話語音識別,例如會議,客服電話等
而本次JDD舉行的對話語音識別大賽,從熱身的數(shù)字語音識別到客服語音識別,都提供了一個入門語音識別的絕好機會。
報名參賽可戳:https://jdder.jd.com/index/jddDetail
雖然數(shù)字語音識別能給我們提供一個入門,但是通常我們所指的語音識別都是指大規(guī)模詞匯連續(xù)語音識別(Large-Vocabulary Continuous Speech Recognition--LVCSR),英語詞匯在20000-60000的范圍,而中文漢字的范圍是2500-6000的范圍。
傳統(tǒng)語音識別的框架如下:
語音信號特征提?。撼R姷恼Z音信號特征有MFCC,F(xiàn)ilterbank,Spectrogram等聲學(xué)模型:傳統(tǒng)的語音識別基于HMM、GMM進(jìn)行聲學(xué)模型建模語言模型:一般采用N-gram的語言模型,目前基于RNN的語言模型也逐步發(fā)展起來解碼:傳統(tǒng)的解碼一般是基于WFST,在HMM、字典和語言模型構(gòu)成的動態(tài)網(wǎng)絡(luò)中搜尋最優(yōu)的輸出字符序列
而端對端的語音識別框架,很適合初學(xué)者入門,大大降低了語音識別技術(shù)的門檻。端到端的語音識別系統(tǒng)一般采用CTC或者Attention兩種機制。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)以及硬件計算能力的不斷發(fā)展,采用上萬小時語料訓(xùn)練得到的端到端語音識別結(jié)果較傳統(tǒng)方法取得了明顯的進(jìn)步,其中一個例子為百度的Deepspeech框架。下面為一些經(jīng)典的端到端語音識別方面的論文。
1. D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos et al., “Deep speech 2: End-to-end speech recognition in english and ** ndarin,” CoRR arXiv:1512.02595, 2015.
2. A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In ICML, pages 369–376. ACM, 2006.
3. W. Chan, N. Jaitly, Q. Le, and O. Vinyals. Listen, attend, and spell. abs/1508.01211, 2015. http://arxiv.org/abs/1508.01211.
語音識別開源項目匯總:
https://github.com/SeanNaren/deepspeech.pytorch基于Pytorch
https://github.com/pannous/tensorflow-speech-recognition 基于Tensorflow
https://github.com/facebookresearch/wav2letter 基于Torch
https://github.com/samsungsds-rnd/deepspeech.mxnet基于Mxnet
https://github.com/baidu-research/ba-dls-deepspeech基于Theano
https://github.com/PaddlePaddle/DeepSpeech 基于PaddlePaddle
https://github.com/mozilla/DeepSpeech基于Tensorflow
https://github.com/kaldi-asr
本文系京東金融技術(shù)研發(fā)部原創(chuàng)內(nèi)容。希望對你有用,不吝關(guān)注、點贊和分享,也歡迎聯(lián)系我們參加語音識別大賽,期待切磋交流~
免責(zé)聲明: 本文章轉(zhuǎn)自其它平臺,并不代表本站觀點及立場。若有侵權(quán)或異議,請聯(lián)系我們刪除。謝謝! |