語(yǔ)音識(shí)別競(jìng)爭(zhēng)激烈超乎想象!亞馬遜崛起與微軟
發(fā)布日期:2021-12-10
點(diǎn)擊次數(shù):2440
語(yǔ)音識(shí)別是一種可以識(shí)別口語(yǔ)單詞的技術(shù),然后可以將其轉(zhuǎn)換為文本。語(yǔ)音識(shí)別的一個(gè)子集是語(yǔ)音識(shí)別,這是一種基于語(yǔ)音識(shí)別人的技術(shù)。全球五家頂尖科技公司Amazon,Microsoft,Google和Apple已通過(guò)Google Home,Amazon Echo和Siri等服務(wù)在各種設(shè)備上提供此功能。
隨著市場(chǎng)上許多語(yǔ)音識(shí)別產(chǎn)品的推出,我們決定研究語(yǔ)音識(shí)別的業(yè)務(wù)含義。通過(guò)研究這些公司的語(yǔ)音識(shí)別技術(shù),我們嘗試為讀者解答以下問(wèn)題:
語(yǔ)音識(shí)別如何驅(qū)動(dòng)這些公司的商業(yè)價(jià)值?
他們?yōu)槭裁匆顿Y語(yǔ)音識(shí)別?
幾年后這項(xiàng)技術(shù)會(huì)是什么樣?
我們從一些背景開(kāi)始,探討技術(shù)巨頭如何以及為何開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù)。其次是來(lái)自亞馬遜,微軟,谷歌和蘋(píng)果的語(yǔ)音識(shí)別技術(shù)的衰落。
發(fā)展語(yǔ)音識(shí)別技術(shù)的潛在原因
技術(shù)公司正在意識(shí)到對(duì)語(yǔ)音識(shí)別技術(shù)的興趣,并正在努力使語(yǔ)音識(shí)別成為大多數(shù)產(chǎn)品的標(biāo)準(zhǔn)。這些公司的目標(biāo)之一可能是使語(yǔ)音助手圍繞上下文和內(nèi)容更加準(zhǔn)確地講話(huà)和答復(fù)。研究表明,具有語(yǔ)音識(shí)別功能的虛擬助手的使用量預(yù)計(jì)將在明年繼續(xù)增長(zhǎng),從2017年的6050萬(wàn)在美國(guó)增加到2018年的6240萬(wàn)。到2019年,有6660萬(wàn)美國(guó)人使用語(yǔ)音或語(yǔ)音識(shí)別技術(shù)。
為了建立強(qiáng)大的語(yǔ)音識(shí)別體驗(yàn),其背后的人工智能必須變得更好,以應(yīng)對(duì)口音和背景噪音等挑戰(zhàn)。如今,自然語(yǔ)言處理和神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展極大地改善了語(yǔ)音和語(yǔ)音技術(shù),以至于今天據(jù)說(shuō)與人類(lèi)同等。例如,在2017年,該公司記錄的Microsoft語(yǔ)音技術(shù)的單詞錯(cuò)誤率達(dá)到5.1%,而Google報(bào)告說(shuō)它已將其錯(cuò)誤率降低到4.9%。
研究公司Research and Markets報(bào)告說(shuō),到2023年,語(yǔ)音識(shí)別市場(chǎng)的價(jià)值將達(dá)到180億美元。隨著語(yǔ)音識(shí)別技術(shù)變得越來(lái)越大,該研究估計(jì)它可以應(yīng)用于從電話(huà)到冰箱再到汽車(chē)的所有領(lǐng)域。在拉斯維加斯舉行的CES 2017年度展會(huì)上可以看到其中的一瞥,那里推出或宣布了帶有語(yǔ)音的新設(shè)備。
盡管所有應(yīng)用程序都具有非常相似的功能和集成機(jī)會(huì),但我們已根據(jù)我們研究的重點(diǎn)將它們歸類(lèi)為每個(gè)應(yīng)用程序的主要關(guān)注領(lǐng)域。
亞馬遜Echo和Alexa
直到最近,亞馬遜的語(yǔ)音虛擬助手Alexa僅在亞馬遜生產(chǎn)的商業(yè)產(chǎn)品上可用。但是,Amazon Web Services已將語(yǔ)音助手提供給其他公司。亞馬遜與英特爾合作推出了Alexa語(yǔ)音服務(wù)設(shè)備軟件開(kāi)發(fā)套件,該套件可允許第三方公司將Alexa功能嵌入其設(shè)備。此次合作是亞馬遜“ Alexa Everywhere”戰(zhàn)略的結(jié)果,該公司表示,該戰(zhàn)略旨在使各種智能和可穿戴設(shè)備的制造商都能普遍使用Alexa背后的技術(shù)。
在拉斯維加斯舉行的CES 2018上,索尼,TiVo和海信發(fā)布了集成Alexa的智能家居技術(shù),使客戶(hù)能夠通過(guò)語(yǔ)音控制電視?;荻?,三角洲,LG和海爾等家用電器制造商還增加了Alexa的語(yǔ)音識(shí)別技能,以幫助人們控制房屋的各個(gè)方面,從電視,微波爐到空調(diào)裝置和水龍頭。根據(jù)Amazon Alexa網(wǎng)站的數(shù)據(jù),Alexa可以控制來(lái)自2500多個(gè)品牌的13,000多種智能家居設(shè)備。
包括其他公司的產(chǎn)品在內(nèi),Alexa現(xiàn)在擁有30,000種技能。盡管蘋(píng)果擁有Siri,谷歌將其未命名的虛擬助手內(nèi)置在智能手機(jī)和揚(yáng)聲器中,但亞馬遜將Alexa集成到了智能揚(yáng)聲器Echo中。亞馬遜沒(méi)有透露最終的銷(xiāo)售數(shù)字,F(xiàn)orrester預(yù)測(cè)到2017年底將售出2200萬(wàn)個(gè)Echo單元。Forrester稱(chēng),達(dá)到這個(gè)銷(xiāo)售數(shù)字將使Echo成為美國(guó)最大的語(yǔ)音助手。
作為虛擬助手,亞馬遜聲稱(chēng)亞馬遜提供的Alexa for Business可以幫助專(zhuān)業(yè)人士管理日程安排,跟蹤任務(wù)并設(shè)置提醒。當(dāng)集成到會(huì)議控制臺(tái)等設(shè)備中時(shí),該應(yīng)用程序可以通過(guò)發(fā)言人的聲音控制會(huì)議室設(shè)置。支持Alexa的設(shè)備還可以在較小的會(huì)議室中充當(dāng)音頻會(huì)議設(shè)備,或者在較大的會(huì)議室中充當(dāng)控制設(shè)備。
羅技將Alexa內(nèi)置到其Harmony遠(yuǎn)程裝置中,以控制家庭娛樂(lè)系統(tǒng)和智能家居設(shè)備。當(dāng)客戶(hù)說(shuō)出簡(jiǎn)單的命令(例如“ Alexa,打開(kāi)電視”或“ Alexa,播放DVD”)時(shí),將激活遠(yuǎn)程單元。然后,Alexa將請(qǐng)求發(fā)送給Harmony,后者通過(guò)紅外將請(qǐng)求中繼到家用設(shè)備,藍(lán)牙或IP。
據(jù)亞馬遜稱(chēng),原型團(tuán)隊(duì)由羅技公司的一名高級(jí)軟件架構(gòu)師組成,他花了兩個(gè)小時(shí)將Alexa集成到Harmony中。一旦原型準(zhǔn)備就緒,羅技(Logitech)的團(tuán)隊(duì)就準(zhǔn)備了發(fā)射所需的技能。根據(jù)羅技(Logitech)的數(shù)據(jù),亞馬遜報(bào)告說(shuō),從原型開(kāi)發(fā)到生產(chǎn)級(jí)技能的過(guò)程不到兩周。在此案例研究中未提供其他詳細(xì)信息或編號(hào)。
在更基本的層面上,亞馬遜還提供自動(dòng)語(yǔ)音識(shí)別(ASR)服務(wù)Transcribe,使開(kāi)發(fā)人員能夠向其應(yīng)用程序添加語(yǔ)音到文本功能。一旦語(yǔ)音功能集成到應(yīng)用程序中,最終用戶(hù)就可以分析音頻文件,然后接收轉(zhuǎn)錄語(yǔ)音的文本文件。
谷歌Home and Assistant
Google Assistant是谷歌的語(yǔ)音虛擬助手,其技能包括諸如通過(guò)Google Pay發(fā)送和請(qǐng)求付款或?qū)ixel 手機(jī)進(jìn)行故障排除之類(lèi)的任務(wù)。
在Android或iOS手機(jī),智能手表,Pixelbook筆記本電腦,Android智能電視/顯示器和Android自動(dòng)啟用的汽車(chē)等設(shè)備上都可以使用Assistant。當(dāng)需要在諸如庫(kù)之類(lèi)的地方保持安靜時(shí),用戶(hù)還可以在Assistant中鍵入命令。Google Assistant為兒童和家庭提供了50種與語(yǔ)音相關(guān)的游戲。
隨身攜帶的Google智能揚(yáng)聲器包括Home。谷歌聲稱(chēng)該揚(yáng)聲器可與來(lái)自150多個(gè)品牌的5,000多個(gè)智能家居設(shè)備配合使用,例如咖啡機(jī),電燈和恒溫器,其中包括索尼,飛利浦,LG和東芝。據(jù)報(bào)道,在2018年第一季度,谷歌售出了320萬(wàn)臺(tái)其Home和Home Mini設(shè)備,超過(guò)了Alexa支持的Echo設(shè)備(250萬(wàn)臺(tái))。兩家公司都沒(méi)有發(fā)布官方數(shù)據(jù)。
為了使Assistant更加普及,Google通過(guò)Actions打開(kāi)了軟件開(kāi)發(fā)工具包,該工具包允許開(kāi)發(fā)人員在支持人工智能的自己的產(chǎn)品中建立聲音。谷歌最近還啟動(dòng)了Assistant Investments計(jì)劃,該計(jì)劃投資于致力于提高語(yǔ)音和輔助技術(shù)(無(wú)論是硬件還是軟件)的初創(chuàng)公司,并專(zhuān)注于旅游,游戲或酒店業(yè)。
根據(jù)該計(jì)劃,谷歌將在技術(shù),業(yè)務(wù)開(kāi)發(fā)和產(chǎn)品潛在客戶(hù)方面提供支持。初創(chuàng)公司還將獲得對(duì)Assistant的新功能和計(jì)劃的首次訪問(wèn); Google產(chǎn)品(包括Google Cloud)的信用; 以及潛在的聯(lián)合營(yíng)銷(xiāo)機(jī)會(huì)。
Google的另一種語(yǔ)音識(shí)別產(chǎn)品是由AI驅(qū)動(dòng)的云語(yǔ)音到文本工具,開(kāi)發(fā)人員可以通過(guò)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法將音頻轉(zhuǎn)換為文本。該工具可使用120種語(yǔ)言,支持語(yǔ)音命令和控制,轉(zhuǎn)錄來(lái)自呼叫中心的音頻,處理實(shí)時(shí)流或預(yù)先錄制的音頻。
微軟Cortana
微軟于2017年10月發(fā)布了自己的語(yǔ)音虛擬助手Cortana。
Cortana家庭揚(yáng)聲器和移動(dòng)設(shè)備應(yīng)用程序可為用戶(hù)提供提醒;保留筆記和清單;據(jù)微軟稱(chēng),它可以幫助管理日歷。它可以從Apple Store和Google Play下載,并且可以在個(gè)人計(jì)算機(jī),智能揚(yáng)聲器和手機(jī)上運(yùn)行。
在名為Invoke的Microsoft家庭揚(yáng)聲器上,Cortana進(jìn)行了編程,以幫助用戶(hù)語(yǔ)音控制音樂(lè),將播放列表排隊(duì),調(diào)高或調(diào)低音量。并停止或開(kāi)始曲目。但是,它不支持Spotify之外的主要音樂(lè)流服務(wù)。微軟表示,智能揚(yáng)聲器還可以回答各種問(wèn)題。撥打和接聽(tīng)Skype電話(huà);并查看最新新聞和天氣。
微軟聲稱(chēng),在PC上,Cortana可以跨Office 365,Outlook和Gmail帳戶(hù)管理用戶(hù)的電子郵件。微軟表示,Cortana的客戶(hù)或技術(shù)合作伙伴包括Domino,Spotify,Capital One,Philips和FitBit。
微軟語(yǔ)音識(shí)別技術(shù)的核心是“語(yǔ)音轉(zhuǎn)文本”界面,該界面可將音頻流轉(zhuǎn)錄為文本。這與創(chuàng)建Cortana,Office和其他Microsoft產(chǎn)品的技術(shù)相同。微軟表示,該服務(wù)可以識(shí)別語(yǔ)音的結(jié)尾,并提供格式化選項(xiàng),包括大寫(xiě)和標(biāo)點(diǎn)符號(hào)以及語(yǔ)言翻譯。
蘋(píng)果的Siri
當(dāng)Apple在2011年將Siri首次集成到iPhone 4時(shí),虛擬助手連接到了許多Web服務(wù),并提供了語(yǔ)音驅(qū)動(dòng)功能,例如通過(guò)TaxiMagic訂購(gòu)出租車(chē),從StubHub提取音樂(lè)會(huì)細(xì)節(jié),從Rotten Tomatoes中查找電影評(píng)論,或篩選Yelp中的餐廳數(shù)據(jù)。
如今,Siri的功能包括翻譯,播放歌曲,預(yù)訂游樂(lè)設(shè)施以及在銀行帳戶(hù)之間轉(zhuǎn)移資金。據(jù)Apple稱(chēng),由于其具有機(jī)器學(xué)習(xí)功能,因此可以使用新命令對(duì)其進(jìn)行編程。
雖然Siri在Google Assistant和Amazon Alexa之前發(fā)布,但與其他市場(chǎng)上的技術(shù)相比,它在響應(yīng)命令或問(wèn)題時(shí)的準(zhǔn)確性仍然令人擔(dān)憂(yōu)。
記者將Siri與Google Assistant和亞馬遜的Alexa進(jìn)行了對(duì)比。一方面,Alexa更準(zhǔn)確地響應(yīng)命令。在我們的研究中,我們還發(fā)現(xiàn)了更長(zhǎng)的視頻評(píng)論,這些評(píng)論表明Siri在對(duì)所有三種語(yǔ)音技術(shù)提出的問(wèn)題的準(zhǔn)確回答上均落在后面。
據(jù)預(yù)測(cè),從2016年到2024年,價(jià)值550億美元的語(yǔ)音識(shí)別行業(yè)將以11%的速度增長(zhǎng)。 該技術(shù)已經(jīng)以轉(zhuǎn)錄應(yīng)用的形式在規(guī)模較小,鮮為人知的公司中的其他行業(yè)中得到很好的使用。當(dāng)前在醫(yī)療保健中,醫(yī)療專(zhuān)業(yè)人員使用語(yǔ)音來(lái)進(jìn)行文本轉(zhuǎn)錄應(yīng)用程序(例如Dolbey)來(lái)為患者創(chuàng)建電子病歷。
在執(zhí)法和法律部門(mén),諸如Nuance之類(lèi)的公司提供了轉(zhuǎn)錄應(yīng)用程序,以便準(zhǔn)確,快速地記錄文檔是至關(guān)重要的,轉(zhuǎn)錄也用于記錄事件報(bào)告。在媒體中,記者使用Recordly等轉(zhuǎn)錄應(yīng)用程序作為記錄和轉(zhuǎn)錄信息的工具,以幫助獲得更準(zhǔn)確的新聞報(bào)道。在教育方面,Sonix幫助研究人員記錄定性訪談的內(nèi)容。
在提供語(yǔ)音和語(yǔ)音識(shí)別功能的五家領(lǐng)先的技術(shù)公司中,谷歌,亞馬遜,微軟,蘋(píng)果都具有類(lèi)似的功能,圍繞日程安排,提醒,播放列表管理,與零售商聯(lián)系,管理電子郵件,下訂單和在線(xiàn)搜索。
這些都是在移動(dòng),個(gè)人計(jì)算機(jī)上提供的,并且大多數(shù)以自己的品牌家用揚(yáng)聲器提供。亞馬遜的Alexa在Echo上,蘋(píng)果的Siri在HomePod上,谷歌助手在Google Home上,微軟的Cortana在Invoke上。
盡管蘋(píng)果在這方面是開(kāi)拓者,但事實(shí)證明,Siri比亞馬遜的Alexa和Google助手要“笨”得多,與其他產(chǎn)品相比功能有限。一項(xiàng)由近5,000個(gè)問(wèn)題組成的研究表明,Google助手是這四個(gè)應(yīng)用程序中最智能的。
但是,就技能而言,另一份報(bào)告顯示Alexa的技能最多,為25,785,Google Assistant為1719,Cortana為235。Siri未包含在此報(bào)告中。這些公司提供這些應(yīng)用程序的商業(yè)版本的原因是技能的增長(zhǎng)。軟件開(kāi)發(fā)工具包(SDK)已提供給開(kāi)發(fā)人員,使初創(chuàng)公司和小型企業(yè)能夠?yàn)槠淇蛻?hù)建立定制的技能。
鈦靈AIX是一款集計(jì)算機(jī)視覺(jué)與智能語(yǔ)音交互兩大核心功能為一體的迷你人工智能計(jì)算機(jī),搭載了專(zhuān)業(yè)AI邊緣計(jì)算芯片與多種傳感器。Model Play面向全球開(kāi)發(fā)者的AI模型資源平臺(tái),內(nèi)置多樣化AI模型,兼容鈦靈AIX,支持谷歌 Edge TPU邊緣人工智能計(jì)算芯片,加速專(zhuān)業(yè)級(jí)開(kāi)發(fā)。
此外,Model Play提供完整易用的遷移學(xué)習(xí)模型訓(xùn)練工具及豐富模型實(shí)例,可與鈦靈AIX完美搭配結(jié)合,實(shí)現(xiàn)各類(lèi)人工智能應(yīng)用的快速開(kāi)發(fā)?;贕oogle開(kāi)源神經(jīng)網(wǎng)絡(luò)架構(gòu)及算法,構(gòu)建自主遷移學(xué)習(xí)功能,用戶(hù)無(wú)需寫(xiě)代碼,通過(guò)選擇圖片、定義模型和類(lèi)別名稱(chēng)即可完成AI模型訓(xùn)練,實(shí)現(xiàn)人工智能的易學(xué)易開(kāi)發(fā)。
免責(zé)聲明: 本文章轉(zhuǎn)自其它平臺(tái),并不代表本站觀點(diǎn)及立場(chǎng)。若有侵權(quán)或異議,請(qǐng)聯(lián)系我們刪除。謝謝! |