語(yǔ)音識(shí)別未來(lái)十年還能做什么?
發(fā)布日期:2021-12-15
點(diǎn)擊次數(shù):2412
從2010年到2020年的十年間,自動(dòng)語(yǔ)音識(shí)別取得了顯著進(jìn)步。許多人現(xiàn)在每天都在使用語(yǔ)音識(shí)別,例如執(zhí)行語(yǔ)音搜索查詢、發(fā)送短信以及與語(yǔ)音助手進(jìn)行交互。在2010年之前,大多數(shù)人很少使用語(yǔ)音識(shí)別。鑒于過(guò)去十年語(yǔ)音識(shí)別狀態(tài)的顯著變化,我們?cè)谖磥?lái)十年可以期待什么?
Zoom杰出科學(xué)家,曾任職于Facebook和百度硅谷的Awni Hannun最近寫了一篇論文預(yù)測(cè)未來(lái)十年語(yǔ)音識(shí)別技術(shù)的發(fā)展。在這篇論文中,作者首先回顧了過(guò)去十年(2010-2020)中,語(yǔ)音識(shí)別技術(shù)發(fā)展的時(shí)間線,接著給出了如何做預(yù)測(cè)的相關(guān)經(jīng)驗(yàn),最后預(yù)測(cè)了語(yǔ)音識(shí)別技術(shù)未來(lái)十年的研究熱點(diǎn)和應(yīng)用熱點(diǎn)。
回顧
從2010年到2020年的十年間,語(yǔ)音識(shí)別和相關(guān)技術(shù)取得了顯著進(jìn)步。圖1展示了過(guò)去十年中語(yǔ)音識(shí)別研究、軟件和應(yīng)用發(fā)展的時(shí)間線。這十年見(jiàn)證了基于手機(jī)的語(yǔ)音助手的推出和流行。亞馬遜Alexa和Google Home等遠(yuǎn)場(chǎng)設(shè)備也已發(fā)布并大量涌現(xiàn)。
圖1 語(yǔ)音識(shí)別技術(shù)在2010年到2020年之間的時(shí)間線
由于深度學(xué)習(xí)的興起,自動(dòng)語(yǔ)音識(shí)別的單詞錯(cuò)誤率顯著降低,部分原因使得這些技術(shù)得以實(shí)現(xiàn)。深度學(xué)習(xí)在語(yǔ)音識(shí)別中取得成功的關(guān)鍵驅(qū)動(dòng)因素是:1)海量轉(zhuǎn)錄數(shù)據(jù)集的管理;2)圖形處理單元的快速進(jìn)步;以及3)學(xué)習(xí)算法和模型架構(gòu)的改進(jìn)。
由于這些因素,語(yǔ)音識(shí)別器的單詞錯(cuò)誤率在整個(gè)十年中持續(xù)且顯著改善。在兩個(gè)最近的研究測(cè)試中,自動(dòng)語(yǔ)音識(shí)別在單詞錯(cuò)誤率指標(biāo)上已經(jīng)擊敗了專業(yè)的轉(zhuǎn)錄員。
這一顯著進(jìn)展引發(fā)了一個(gè)問(wèn)題:到2030年的未來(lái)十年還有什么可以做?下面,我嘗試著回答這個(gè)問(wèn)題。但是,在開(kāi)始之前,我想首先分享一些關(guān)于預(yù)測(cè)未來(lái)這個(gè)一般問(wèn)題的經(jīng)驗(yàn)。這些靈感來(lái)自數(shù)學(xué)家(以及計(jì)算機(jī)科學(xué)家和電氣工程師)Richard Hamming,他特別擅長(zhǎng)
預(yù)測(cè)計(jì)算的未來(lái)。
關(guān)于預(yù)測(cè)未來(lái)的相關(guān)知識(shí)
Richard Hamming在《The Art of Doing Science and Engineering》中做出了許多預(yù)測(cè),其中許多已經(jīng)實(shí)現(xiàn)。這里有幾個(gè)例子
他預(yù)測(cè),“到2020年,由應(yīng)用領(lǐng)域的專家來(lái)編寫程序而不是讓計(jì)算機(jī)專家將是相當(dāng)普遍的做法。”
他預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)“代表了編程問(wèn)題的解決方案”,并且“它們可能會(huì)在計(jì)算機(jī)的未來(lái)發(fā)揮重要作用。”
他預(yù)測(cè)了通用而非專用硬件、模擬數(shù)字和高級(jí)編程語(yǔ)言的流行。
早在交換機(jī)實(shí)際發(fā)生之前,他就預(yù)計(jì)使用光纖電纜代替銅線進(jìn)行通信。
關(guān)于技術(shù)預(yù)測(cè)的一個(gè)普遍說(shuō)法是,短期預(yù)測(cè)往往過(guò)于樂(lè)觀,而長(zhǎng)期預(yù)測(cè)往往過(guò)于悲觀。這通常歸因于技術(shù)進(jìn)步呈指數(shù)級(jí)增長(zhǎng)的事實(shí)。圖2顯示了如果我們從當(dāng)前假設(shè)來(lái)看,進(jìn)展與時(shí)間呈線性關(guān)系的樂(lè)觀推斷。過(guò)去十年(2010?2020年)語(yǔ)音識(shí)別的進(jìn)步是由兩個(gè)關(guān)鍵軸上的指數(shù)增長(zhǎng)推動(dòng)的。分別是計(jì)算(例如每秒浮點(diǎn)操作)和數(shù)據(jù)集大小。圖2是否適用于未來(lái)十年的語(yǔ)音識(shí)別還有待觀察。
圖2 進(jìn)展與時(shí)間的關(guān)系
我相信下面的很多預(yù)測(cè)都會(huì)被證明是錯(cuò)誤的。在某些方面,尤其是在涉及更具爭(zhēng)議性的預(yù)測(cè)時(shí),這些確實(shí)更像是對(duì)未來(lái)的愿望清單。關(guān)于這一點(diǎn),讓我用計(jì)算機(jī)科學(xué)家Alan Kay的名言結(jié)束本段:預(yù)測(cè)未來(lái)最好的方法就是去創(chuàng)造它。
研究方向的預(yù)測(cè)
半監(jiān)督學(xué)習(xí)
預(yù)測(cè):半監(jiān)督學(xué)習(xí)將繼續(xù)存在。特別是,自我監(jiān)督的預(yù)訓(xùn)練模型將成為許多機(jī)器學(xué)習(xí)應(yīng)用程序的一部分,包括語(yǔ)音識(shí)別。
作為研究科學(xué)家,我的部分工作是招聘,這意味著要進(jìn)行大量面試。我已經(jīng)面試了一百多名從事各種機(jī)器學(xué)習(xí)應(yīng)用程序的候選人。很大一部分人,尤其是自然語(yǔ)言應(yīng)用程序,依賴預(yù)訓(xùn)練模型作為其支持機(jī)器學(xué)習(xí)的產(chǎn)品或功能的基礎(chǔ)。自監(jiān)督預(yù)訓(xùn)練已經(jīng)在工業(yè)應(yīng)用中普遍存在。我預(yù)測(cè)到2030年,自我監(jiān)督的預(yù)訓(xùn)練將在語(yǔ)音識(shí)別中同樣普遍。
過(guò)去三年的深度學(xué)習(xí)是半監(jiān)督和自我監(jiān)督的年份。該領(lǐng)域無(wú)疑已經(jīng)學(xué)會(huì)了如何使用未注釋的數(shù)據(jù)改進(jìn)機(jī)器學(xué)習(xí)模型。自監(jiān)督學(xué)習(xí)已經(jīng)使許多最具挑戰(zhàn)性的機(jī)器學(xué)習(xí)任務(wù)受益。在語(yǔ)言任務(wù)中,最先進(jìn)的轉(zhuǎn)錄已經(jīng)被自我監(jiān)督模型超越。自監(jiān)督和半監(jiān)督現(xiàn)在很常見(jiàn),并在計(jì)算機(jī)視覺(jué)和機(jī)器翻譯中創(chuàng)下了記錄。
語(yǔ)音識(shí)別也受益于半監(jiān)督學(xué)習(xí)。第一種方法是自監(jiān)督預(yù)訓(xùn)練,其損失函數(shù)基于對(duì)比預(yù)測(cè)編碼。這個(gè)想法很簡(jiǎn)單:訓(xùn)練模型來(lái)預(yù)測(cè)給定過(guò)去音頻的未來(lái)幀。第二種方法是偽標(biāo)記。同樣,這個(gè)想法很簡(jiǎn)單:使用經(jīng)過(guò)訓(xùn)練的模型來(lái)預(yù)測(cè)未標(biāo)記數(shù)據(jù)的標(biāo)簽,然后在預(yù)測(cè)的標(biāo)簽上訓(xùn)練一個(gè)新模型。偽標(biāo)簽起作用的原因和機(jī)制是有趣的研究問(wèn)題。
自我監(jiān)督的主要挑戰(zhàn)是規(guī)模和泛化性能。目前只有最頂級(jí)的行業(yè)研究實(shí)驗(yàn)室有資金大規(guī)模地進(jìn)行監(jiān)督訓(xùn)練。作為一個(gè)研究方向,監(jiān)督學(xué)習(xí)是大多數(shù)實(shí)驗(yàn)室和業(yè)界不太容易接近的。
研究意義:考慮到可以在更少數(shù)據(jù)上進(jìn)行有效訓(xùn)練的輕量級(jí)模型,自監(jiān)督學(xué)習(xí)將更容易實(shí)現(xiàn)。相關(guān)的研究方向包括輕量級(jí)模型的稀疏性、更快訓(xùn)練的優(yōu)化以及結(jié)合先驗(yàn)知識(shí)以提高樣本效率的有效方法。
邊緣計(jì)算
預(yù)測(cè):大多數(shù)語(yǔ)音識(shí)別將在設(shè)備端或移動(dòng)邊緣進(jìn)行。
這個(gè)預(yù)測(cè)有幾個(gè)原因。首先,將數(shù)據(jù)保存在設(shè)備上而不是將其發(fā)送到中央服務(wù)器更加私密。數(shù)據(jù)隱私的趨勢(shì)將帶來(lái)設(shè)備端的計(jì)算需求。如果模型需要從用戶的數(shù)據(jù)中學(xué)習(xí),那么訓(xùn)練應(yīng)該在設(shè)備上進(jìn)行。
首選邊緣計(jì)算的第二個(gè)原因是延遲。從絕對(duì)值來(lái)看,10毫秒和100毫秒之間的差異并不大。但前者遠(yuǎn)低于人類的感知延遲,后者則遠(yuǎn)高于。谷歌已經(jīng)展示了一種在設(shè)備上進(jìn)行的語(yǔ)音識(shí)別系統(tǒng),其準(zhǔn)確度幾乎與良好的服務(wù)器端口系統(tǒng)一致。從實(shí)用的角度來(lái)看,設(shè)備上系統(tǒng)難以察覺(jué)的延遲使得與設(shè)備的交互感覺(jué)更加靈敏,因此更具吸引力。
最后一個(gè)原因是100%的可用性。即使沒(méi)有互聯(lián)網(wǎng)連接或不穩(wěn)定的服務(wù),識(shí)別器也能工作,這意味著它會(huì)一直工作。從用戶交互的角度來(lái)看,大部分時(shí)間都有效的產(chǎn)品和每次都有效的產(chǎn)品之間存在很大差異。
研究意義:設(shè)備上識(shí)別需要計(jì)算量小、功耗低的模型。模型量化和知識(shí)蒸餾(訓(xùn)練較小的模型以模擬更準(zhǔn)確的較大模型)是兩種常用的技術(shù)。不太常用的稀疏性是另一種生成輕量級(jí)模型的方法。在稀疏模型中,大部分參數(shù)(即隱藏狀態(tài)之間的連接)為零,可以有效地忽略。在這三種技術(shù)中,我認(rèn)為稀疏性是最有前途的研究方向。
我相信我們已經(jīng)挖掘了量化的最大價(jià)值,即使在不太可能的情況下將量化從 8 位進(jìn)一步減少到 1 位,我們只能獲得八倍的增益。對(duì)于蒸餾,我們還有很多東西要學(xué)。但是,我相信揭示蒸餾工作的機(jī)制將使我們能夠直接訓(xùn)練小模型,而不是走迂回的路線,先訓(xùn)練大模型,然后再訓(xùn)練第二個(gè)小模型來(lái)模仿大模型。
這使得稀疏性成為輕量級(jí)模型最有前途的研究方向。正如“彩票假設(shè)”之類的發(fā)現(xiàn)所證明的那樣,我們關(guān)于稀疏性在深度學(xué)習(xí)中的作用有很多需要了解。從理論上講,稀疏性帶來(lái)的計(jì)算收益可能是巨大的。實(shí)現(xiàn)這些收益將需要開(kāi)發(fā)用于評(píng)估稀疏模型的軟件,可能還有硬件。
字錯(cuò)誤率
預(yù)測(cè):到30年,可能更早,研究人員將不再發(fā)表類似于“使用模型架構(gòu)Y提高基準(zhǔn)X上的單詞錯(cuò)誤率”的論文。
正如您在圖3中看到的,兩個(gè)最常研究的語(yǔ)音識(shí)別基準(zhǔn)的單詞錯(cuò)誤率已經(jīng)飽和。部分問(wèn)題是我們需要更嚴(yán)格的基準(zhǔn)供研究人員研究。最近發(fā)布的兩個(gè)基準(zhǔn)可能會(huì)刺激語(yǔ)音識(shí)別領(lǐng)域的進(jìn)一步研究。但是,我預(yù)測(cè)這些基準(zhǔn)會(huì)隨著模型和計(jì)算的擴(kuò)展而迅速飽和。
圖3 兩個(gè)數(shù)據(jù)集上的字錯(cuò)誤率
問(wèn)題的另一部分是,我們已經(jīng)來(lái)到了一個(gè)境況,即學(xué)術(shù)基準(zhǔn)上的單詞錯(cuò)誤率改進(jìn)不再與實(shí)用價(jià)值相關(guān)。幾年前,圖3中兩個(gè)基準(zhǔn)的語(yǔ)音識(shí)別單詞錯(cuò)誤率打敗了了人類的單詞錯(cuò)誤率。然而,在大多數(shù)情況下,人類比機(jī)器更能理解語(yǔ)音。這意味著單詞錯(cuò)誤率作為我們語(yǔ)音識(shí)別系統(tǒng)質(zhì)量的衡量標(biāo)準(zhǔn)與理解人類語(yǔ)音的能力沒(méi)有很好的相關(guān)性。
最后一個(gè)問(wèn)題是,隨著模型和數(shù)據(jù)集越來(lái)越大,以及計(jì)算成本的增加,最先進(jìn)的語(yǔ)音識(shí)別研究變得越來(lái)越難以獲得。一些資金充足的工業(yè)實(shí)驗(yàn)室正迅速成為唯一可以進(jìn)行此類研究的地方。隨著進(jìn)步變得越來(lái)越慢,離學(xué)術(shù)界也越來(lái)越遠(yuǎn),這部分領(lǐng)域?qū)⒗^續(xù)從研究實(shí)驗(yàn)室轉(zhuǎn)向工程組織。
更豐富的表達(dá)
預(yù)測(cè):對(duì)于依賴語(yǔ)音識(shí)別器輸出的下游任務(wù),轉(zhuǎn)錄將被更豐富的表達(dá)所取代。此類下游應(yīng)用程序的示例包括對(duì)話代理、基于語(yǔ)音的搜索查詢和數(shù)字助理。
下游應(yīng)用程序通常不關(guān)心逐字轉(zhuǎn)錄;他們關(guān)心語(yǔ)義正確性。因此,提高語(yǔ)音識(shí)別器的單詞錯(cuò)誤率通常不會(huì)提高下游任務(wù)的目標(biāo)。一種可能性是開(kāi)發(fā)一個(gè)語(yǔ)義錯(cuò)誤率并用它來(lái)衡量語(yǔ)音識(shí)別器的質(zhì)量。這是一個(gè)具有挑戰(zhàn)性但有趣的研究問(wèn)題。
我認(rèn)為更有可能的結(jié)果是通過(guò)語(yǔ)音識(shí)別器為下游應(yīng)用程序提供更豐富的表達(dá)形式。例如,不是傳遞單個(gè)轉(zhuǎn)錄,而是傳遞捕獲每個(gè)可能性的不確定性的網(wǎng)格(如圖4所示)可能更有用。
圖4 一個(gè)基于語(yǔ)音識(shí)別加權(quán)的編碼網(wǎng)格示例
個(gè)性化
預(yù)測(cè):到2030年,語(yǔ)音識(shí)別模型將針對(duì)個(gè)人用戶進(jìn)行深度個(gè)性化。
語(yǔ)音的自動(dòng)識(shí)別與人類對(duì)語(yǔ)音的解釋之間的主要區(qū)別之一在于上下文的使用。人類在相互交談時(shí)會(huì)依賴很多上下文信息。此上下文包括對(duì)話主題、過(guò)去所說(shuō)的內(nèi)容、噪音背景以及唇部運(yùn)動(dòng)和面部表情等視覺(jué)線索。對(duì)于斷章取義的簡(jiǎn)短話語(yǔ)(即長(zhǎng)度小于10秒),我們已經(jīng)或即將達(dá)到語(yǔ)音識(shí)別的最優(yōu)錯(cuò)誤率。我們的模型正在盡其所能使用數(shù)據(jù)中可用的信息。為了繼續(xù)提高機(jī)器對(duì)人類語(yǔ)音的理解,需要將上下文作為識(shí)別過(guò)程的更深層次的一部分。
做到這一點(diǎn)的一種方法是個(gè)性化。針對(duì)患有語(yǔ)言障礙的個(gè)人用戶的個(gè)性化模型將單詞錯(cuò)誤率改善了64%。個(gè)性化可以對(duì)識(shí)別質(zhì)量產(chǎn)生巨大影響,特別是對(duì)于在訓(xùn)練數(shù)據(jù)中代表性不足的群體或領(lǐng)域。我預(yù)測(cè)到2030年,我們將看到更加普遍的個(gè)性化。
研究意義:設(shè)備上的個(gè)性化需要在本地進(jìn)行的訓(xùn)練,這本身就需要輕量級(jí)的模型和某種形式的弱監(jiān)督。個(gè)性化需要可以根據(jù)給定用戶或上下文輕松定制的模型。將此類上下文納入模型的最佳方法仍然是一個(gè)研究問(wèn)題。
應(yīng)用預(yù)測(cè)
轉(zhuǎn)錄服務(wù)
預(yù)測(cè):到2030年,99%的轉(zhuǎn)錄語(yǔ)音服務(wù)將通過(guò)自動(dòng)語(yǔ)音識(shí)別來(lái)完成。人工轉(zhuǎn)錄員將執(zhí)行質(zhì)量控制并糾正或轉(zhuǎn)錄更困難的話語(yǔ)。轉(zhuǎn)錄服務(wù)包括例如為視頻添加字幕、轉(zhuǎn)錄采訪以及轉(zhuǎn)錄講座或演講。
語(yǔ)音助手
預(yù)測(cè):語(yǔ)音助手會(huì)變得更好,但是需要一個(gè)過(guò)程。語(yǔ)音識(shí)別不再是更好的語(yǔ)音助手的瓶頸。瓶頸現(xiàn)在完全在語(yǔ)言理解領(lǐng)域,包括保持對(duì)話的能力、多重上下文響應(yīng)以及更廣泛的領(lǐng)域問(wèn)答。我們將繼續(xù)在這些所謂的AI?complete問(wèn)題上取得進(jìn)展,但我不認(rèn)為它們會(huì)在2030年得到解決。
我們是否會(huì)生活在智能家居中,始終傾聽(tīng)并響應(yīng)我們的每一個(gè)聲音?
我們會(huì)佩戴增強(qiáng)現(xiàn)實(shí)眼鏡并用聲音控制它們?
到2030年不會(huì)。
結(jié)論
這些預(yù)測(cè)表明,未來(lái)十年對(duì)于語(yǔ)音識(shí)別和口語(yǔ)理解的發(fā)展可能與前十年一樣令人興奮和重要。在語(yǔ)音識(shí)別達(dá)到對(duì)每個(gè)人來(lái)說(shuō)一直有效的狀態(tài)之前,我們還有許多研究問(wèn)題需要解決。然而,這是一個(gè)值得努力的目標(biāo),因?yàn)檎Z(yǔ)音識(shí)別技術(shù)是進(jìn)行更流暢、更自然交互的關(guān)鍵組成部分。
免責(zé)聲明: 本文章轉(zhuǎn)自其它平臺(tái),并不代表本站觀點(diǎn)及立場(chǎng)。若有侵權(quán)或異議,請(qǐng)聯(lián)系我們刪除。謝謝! |