手机推荐排行榜,天下高月小说,大主宰

中文版 English

XML 網(wǎng)站地圖 RSS

技術(shù)分享

如何入門語音識別

發(fā)布時間：2021-12-11 00:00:00 瀏覽：2639次

不請自來，最近剛好因?yàn)榛I備JDD語音識別大賽在做這方面的研究。

語音識別，顧名思義，是利用機(jī)器將語音信號轉(zhuǎn)換成文本信息。比如被我們玩壞的Siri，京東的叮咚音箱，小米的小愛同學(xué)，亞馬遜的Echo等。

想要從零開始搭建一個語音識別系統(tǒng)，首先遇到的一個問題就是使用什么數(shù)據(jù)用來上手。一個有效的語音識別模型，通常需要幾百到幾千小時包含文本標(biāo)注的音頻文件作為訓(xùn)練數(shù)據(jù)。

目前在學(xué)術(shù)論文中比較常見的語音識別數(shù)據(jù)集，比如Switchboard，TIMIT，WSJ這些，都并不免費(fèi)且價格高昂。

公開數(shù)據(jù)集中最常用的英文語料是LibriSpeech，其中包含了1000小時的16kHz有聲書錄音，并且經(jīng)過切割和整理成每條10秒左右的、經(jīng)過文本標(biāo)注的音頻文件，非常適合入門使用。

中文語料方面，目前公開的大規(guī)模語音識別數(shù)據(jù)集比較少見。清華大學(xué)開源過30小時的連續(xù)普通話語音數(shù)據(jù)庫THCHS-30，由大學(xué)生參與錄音獲得。

以上介紹的兩個公開語音數(shù)據(jù)集，都可在http:// ** .openslr.org免費(fèi)下載。

另外，參加一些開放語音數(shù)據(jù)的算法比賽，也是中文語音識別項(xiàng)目入門的好途徑。比如我們今年主辦的京東金融對話語音識別大賽，首次開放了上千小時的中文客服對話語音數(shù)據(jù)，并提供強(qiáng)大的GPU資源保障運(yùn)算能力。比賽面向廣大的語音技術(shù)愛好者，高校學(xué)生，企業(yè)開發(fā)者，希望通過開放客服對話語音標(biāo)注數(shù)據(jù)(經(jīng)嚴(yán)格脫敏)，專注于尋找最新、最強(qiáng)的語音識別算法，促進(jìn)語音技術(shù)的普及和發(fā)展，同時加強(qiáng)語音識別技術(shù)愛好者之間的交流與分享。

JDD空間站和語音識別大賽具體信息可查看文章：

JDD空間站首場邀請賽開賽，開放數(shù)千小時真實(shí)客服對話語音數(shù)據(jù)

最簡單的語音識別例如yes/no,整個識別的詞典范圍只有yes和no兩個單詞。

如果詞典范圍在擴(kuò)大一些，例如數(shù)字識別，識別連續(xù)的 ** 數(shù)字。這兩種語音識別的任務(wù)都是相對簡單的。

而在對于電話錄音轉(zhuǎn)譯則要復(fù)雜得多，中文的語音識別詞典范圍可以達(dá)到6000多個漢字，而英語單詞則有 ** 000個單詞之多。

另外語音識別還可以從場景角度去分類，分為孤立詞識別(Isolated Word)，連續(xù)語音識別(continuous speech)，而連續(xù)語音識別又可以分為人機(jī)錄音和對話語音識別，人機(jī)對話是人對機(jī)器發(fā)聲，例如語音輸入法，而對話語音識別，例如會議，客服電話等

而本次JDD舉行的對話語音識別大賽，從熱身的數(shù)字語音識別到客服語音識別，都提供了一個入門語音識別的絕好機(jī)會。

報名參賽可戳：https://jdder.jd.com/index/jddDetail

雖然數(shù)字語音識別能給我們提供一個入門，但是通常我們所指的語音識別都是指大規(guī)模詞匯連續(xù)語音識別(Large-Vocabulary Continuous Speech Recognition--LVCSR),英語詞匯在20000-60000的范圍，而中文漢字的范圍是2500-6000的范圍。

傳統(tǒng)語音識別的框架如下：

語音信號特征提?。撼Ｒ姷恼Z音信號特征有MFCC，F(xiàn)ilterbank，Spectrogram等聲學(xué)模型：傳統(tǒng)的語音識別基于HMM、GMM進(jìn)行聲學(xué)模型建模語言模型：一般采用N-gram的語言模型，目前基于RNN的語言模型也逐步發(fā)展起來解碼：傳統(tǒng)的解碼一般是基于WFST，在HMM、字典和語言模型構(gòu)成的動態(tài)網(wǎng)絡(luò)中搜尋最優(yōu)的輸出字符序列

而端對端的語音識別框架，很適合初學(xué)者入門，大大降低了語音識別技術(shù)的門檻。端到端的語音識別系統(tǒng)一般采用CTC或者Attention兩種機(jī)制。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)以及硬件計算能力的不斷發(fā)展，采用上萬小時語料訓(xùn)練得到的端到端語音識別結(jié)果較傳統(tǒng)方法取得了明顯的進(jìn)步，其中一個例子為百度的Deepspeech框架。下面為一些經(jīng)典的端到端語音識別方面的論文。

1. D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos et al., “Deep speech 2: End-to-end speech recognition in english and ** ndarin,” CoRR arXiv:1512.02595, 2015.

2. A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In ICML, pages 369–376. ACM, 2006.

3. W. Chan, N. Jaitly, Q. Le, and O. Vinyals. Listen, attend, and spell. abs/1508.01211, 2015. http://arxiv.org/abs/1508.01211.

語音識別開源項(xiàng)目匯總:

https://github.com/SeanNaren/deepspeech.pytorch基于Pytorch

https://github.com/pannous/tensorflow-speech-recognition 基于Tensorflow

https://github.com/facebookresearch/wav2letter 基于Torch

https://github.com/samsungsds-rnd/deepspeech.mxnet基于Mxnet

https://github.com/baidu-research/ba-dls-deepspeech基于Theano

https://github.com/PaddlePaddle/DeepSpeech 基于PaddlePaddle

https://github.com/mozilla/DeepSpeech基于Tensorflow

https://github.com/kaldi-asr

本文系京東金融技術(shù)研發(fā)部原創(chuàng)內(nèi)容。希望對你有用，不吝關(guān)注、點(diǎn)贊和分享，也歡迎聯(lián)系我們參加語音識別大賽，期待切磋交流~

免責(zé)聲明：本文章轉(zhuǎn)自其它平臺，并不代表本站觀點(diǎn)及立場。若有侵權(quán)或異議，請聯(lián)系我們刪除。謝謝！
矽源特科技ChipSourceTek