精品国产sm全部网站免费_日韩精品毛片_推荐高清免费不卡网站_亚洲无码人成电影在线观看_一本伊大人香蕉久久網手機_福利视频你懂得_亚洲欧美曰韩在线_成年男女免费网站点播_成年人播放一级片高清_亚洲视频在线视频

Service Hotline: 13823761625

Support

Contact Us

You are here:Home >> Support >> Technology

Technology

CMU Sphinx: speech recognition open source weapon

Time:2021-12-17 Views:2432

   Silicon Valley Data Science曾對5種流行的語音識別工具,包括開源的和非開源的,分別從編程語言、開發(fā)工作、教學案例、社區(qū)、訓練模型等進行了橫向對比。 

  開源免費語音識別工具包橫向對比

  可以看到,CMU Sphinx在各方面均具有一定的優(yōu)勢:

  關于編程語言,CMU Sphinx包含了Java、C、Python等多種語言的支持;關于開發(fā)工作,CMU Sphinx在Github上多種語言版本完全開源;

  關于社區(qū)建設,CMU Sphinx在它的repos 上有在線交流論壇和積極關注;

  關于編程和案例,CMU Sphinx的教程非常具有可讀性,易于學習;

  關于模型訓練,CMU Sphinx 包含中英文和很多即開即用的高質量模型。

  

  

  CMU Sphinx介紹

  

  CMU Sphinx(簡稱Sphinx)是美國卡內基梅隆大學開發(fā)的一系列語音識別系統的總稱,也是一個領先的語音識別工具包,具有用于構建語音應用程序的各種工具,CMU Sphinx包含許多用于不同任務和應用程序的開發(fā)包。主要包括:

  • Pocketsphinx — lightweight recognizer library written in C(C語言開發(fā)的輕量級語音識別引擎)

  • Sphinxtrain — acoustic model training tools (聲學模型訓練工具)

  • Sphinxbase — support library required by Pocketsphinx andSphinxtrain(Pocketsphinx和Sphinxtrain的基礎類庫)

  • Sphinx4 — adjustable, modifiable recognizer written in Java (Java語言開發(fā)的可調節(jié)、可修改的語音識別引擎)

  

  

  CMU Sphinx包含的模型

  

    CMU Sphinx中的模型包括聲學模型(acoustic model)、語言模型(language model)、發(fā)音字典(phonetic dictionary)。

  (1)聲學模型主要用于計算語音特征和每個發(fā)音模板之間的似然度,目的是為每個聲學單元建立一套模型參數,通過不斷地學習和改進得到概率最大的一組HMM模型參數。CMU Sphinx的聲學模型包含每個句子的聲學特性,存在與上下文相關的模型,其包含屬性(每個音素的最可能的特征向量)和依賴于上下文的(從具有上下文的語音建立的)屬性。

  (2)語言模型定義了哪些單詞可以遵循以前識別的單詞,并通過剝離不可能的單詞來幫助限制匹配過程。最常用的語言模型是N-gram語言模型,它包含單詞序列的統計數據和有限狀態(tài)語言模型,通過有限狀態(tài)自動化(有時具有權重)來定義語音序列。

  (3)發(fā)音字典包含了從單詞(words)到音素(phones)之間的映射,作用是用來連接聲學模型和語言模型。發(fā)音字典包含系統所能處理的單詞的 ** ,并標明了其發(fā)音。通過發(fā)音字典得到聲學模型的建模單元和語言模型建模單元間的映射關系,從而把聲學模型和語言模型連接起來,組成一個搜索的狀態(tài)空間用于解碼器進行解碼工作。

  

  

  CMU Sphinx中文模型

  

  CMU Sphinx的中文模型主要有如下3個包:

聲學模型:zh_broadcastnews_16k_ptm256_8000.tar.bz2語言模型:zh_broadcastnews_ ** 000_utf8.DMP拼音字典:zh_broadcastnews_utf8.dic

  zh_broadcastnews_ptm256_8000目錄結構

  ├── feat.params   //HMM模型的特征參數

  ├── mdef   //模型定義文件(為每個即將進行訓練的HMM的每一狀態(tài)定義一個獨特的數字標識)

  ├── means  //混合高斯模型的均值

  ├── mixture_weights   //混合權重

  ├── noisedict    //噪聲也就是非語音字典

  ├── sendump  //用來從聲學模型中獲取mixture_weights文件的?

  ├── transition_ ** trices  //HMM模型的狀態(tài)轉移矩陣

  └── variances  //混合高斯模型的方差

  

  授人以漁

  CMU Sphinx中包含了許多簡單易懂的案例(Demo),對語音識別感興趣的童鞋不妨一試。

CMU Sphinx主頁:https://cmusphinx.github.io/教學網址:https://cmusphinx.github.io/wiki/tutorial/      模型下載地址:https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/

免責聲明: 本文章轉自其它平臺,并不代表本站觀點及立場。若有侵權或異議,請聯系我們刪除。謝謝!
    矽源特科技ChipSourceTek