什么是語(yǔ)音識(shí)別
語(yǔ)音或說(shuō)話人識(shí)別是機(jī)器或程序接收和解釋聽(tīng)寫(xiě)或理解和執(zhí)行語(yǔ)音命令的能力。隨著人工智能(AI)和智能助手(如亞馬遜的Alexa和蘋(píng)果的Siri)的興起,語(yǔ)音識(shí)別獲得了突出和使用。
語(yǔ)音識(shí)別系統(tǒng)讓消費(fèi)者只需與技術(shù)交談即可與技術(shù)進(jìn)行交互,從而實(shí)現(xiàn)免提請(qǐng)求、提醒和其他簡(jiǎn)單任務(wù)。語(yǔ)音識(shí)別可以使用自動(dòng)語(yǔ)音識(shí)別 (ASR) 軟件程序識(shí)別和區(qū)分語(yǔ)音。某些 ASR 程序要求用戶首先訓(xùn)練程序識(shí)別其語(yǔ)音,以實(shí)現(xiàn)更準(zhǔn)確的語(yǔ)音到文本轉(zhuǎn)換。語(yǔ)音識(shí)別系統(tǒng)評(píng)估語(yǔ)音的頻率、口音和語(yǔ)音流。
盡管語(yǔ)音識(shí)別和語(yǔ)音識(shí)別可以互換使用,但它們并不相同,必須進(jìn)行關(guān)鍵的區(qū)分。語(yǔ)音識(shí)別識(shí)別說(shuō)話人,而語(yǔ)音識(shí)別評(píng)估所說(shuō)的話。
語(yǔ)音識(shí)別如何工作?
計(jì)算機(jī)上的語(yǔ)音識(shí)別軟件需要將模擬音頻轉(zhuǎn)換為數(shù)字信號(hào),稱為模數(shù)轉(zhuǎn)換(A/D)。對(duì)于破譯信號(hào)的計(jì)算機(jī),它必須有一個(gè)單詞或音節(jié)的數(shù)字?jǐn)?shù)據(jù)庫(kù),以及將這些數(shù)據(jù)與信號(hào)進(jìn)行比較的快速過(guò)程。語(yǔ)音模式存儲(chǔ)在硬盤(pán)驅(qū)動(dòng)器上,并在程序運(yùn)行時(shí)加載到內(nèi)存中。比較器根據(jù)A/D轉(zhuǎn)換器的輸出檢查這些存儲(chǔ)的模式 - 這種操作稱為模式識(shí)別。
實(shí)際上,語(yǔ)音識(shí)別程序的有效詞匯量的大小與安裝它的計(jì)算機(jī)的RAM容量直接相關(guān)。與在硬盤(pán)驅(qū)動(dòng)器中搜索某些匹配項(xiàng)相比,如果可以將整個(gè)詞匯加載到 RAM 中,則語(yǔ)音識(shí)別程序的運(yùn)行速度要快很多倍。處理速度至關(guān)重要,因?yàn)樗鼤?huì)影響計(jì)算機(jī)在 RAM 中搜索匹配項(xiàng)的速度。
為了清晰起見(jiàn),還必須處理音頻,因此某些設(shè)備可能會(huì)過(guò)濾掉背景噪音。在某些語(yǔ)音識(shí)別系統(tǒng)中,音頻中的某些頻率被強(qiáng)調(diào),以便設(shè)備可以更好地識(shí)別語(yǔ)音。語(yǔ)音識(shí)別系統(tǒng)通過(guò)兩種模型之一分析語(yǔ)音:隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)。隱馬爾可夫模型將口語(yǔ)單詞分解為音素,而遞歸神經(jīng)網(wǎng)絡(luò)使用前面步驟的輸出來(lái)影響當(dāng)前步驟的輸入。
隨著語(yǔ)音識(shí)別技術(shù)用途的增長(zhǎng)和越來(lái)越多的用戶與之交互,實(shí)施語(yǔ)音識(shí)別軟件的組織將有更多的數(shù)據(jù)和信息輸入語(yǔ)音識(shí)別系統(tǒng)的神經(jīng)網(wǎng)絡(luò)。這提高了語(yǔ)音識(shí)別產(chǎn)品的功能和準(zhǔn)確性。
智能手機(jī)的普及為將語(yǔ)音識(shí)別技術(shù)添加到消費(fèi)者口袋中提供了機(jī)會(huì),而家用設(shè)備(如Google Home和Amazon Echo)則將語(yǔ)音識(shí)別技術(shù)帶入了客廳和廚房。
語(yǔ)音識(shí)別用途
隨著人工智能、機(jī)器學(xué)習(xí)和消費(fèi)者接受度的成熟,語(yǔ)音識(shí)別的使用迅速增長(zhǎng)。如何使用語(yǔ)音識(shí)別的示例包括:
虛擬助手。 Siri,Alexa和Google虛擬助手都實(shí)現(xiàn)了語(yǔ)音識(shí)別軟件來(lái)與用戶進(jìn)行交互。消費(fèi)者使用語(yǔ)音識(shí)別技術(shù)的方式因產(chǎn)品而異。但他們可以使用它來(lái)將語(yǔ)音轉(zhuǎn)錄為文本,設(shè)置提醒,搜索互聯(lián)網(wǎng)并回答簡(jiǎn)單的問(wèn)題和請(qǐng)求,例如播放音樂(lè)或共享天氣或交通信息。
智能設(shè)備。用戶可以使用語(yǔ)音識(shí)別軟件控制他們的智能家居,包括智能恒溫器和智能揚(yáng)聲器。
自動(dòng)電話系統(tǒng)。組織在其電話系統(tǒng)中使用語(yǔ)音識(shí)別,通過(guò)說(shuō)出特定號(hào)碼將呼叫者定向到相應(yīng)的部門(mén)。
會(huì)議。語(yǔ)音識(shí)別用于為說(shuō)話者提供實(shí)時(shí)字幕,以便其他人可以實(shí)時(shí)跟隨所說(shuō)的文本。
藍(lán)牙?,F(xiàn)代汽車中的藍(lán)牙系統(tǒng)支持語(yǔ)音識(shí)別,以幫助駕駛員將視線集中在道路上。駕駛員可以使用語(yǔ)音識(shí)別來(lái)執(zhí)行命令,例如“呼叫我的辦公室”。
聽(tīng)寫(xiě)和語(yǔ)音識(shí)別軟件。這些工具可以幫助用戶聽(tīng)寫(xiě)和轉(zhuǎn)錄文檔,而無(wú)需使用物理鍵盤(pán)或鼠標(biāo)輸入文本。
政府。 國(guó)家安全局使用可追溯到2006年的語(yǔ)音識(shí)別系統(tǒng)來(lái)識(shí)別恐怖分子和間諜或驗(yàn)證任何說(shuō)話者的音頻。
語(yǔ)音識(shí)別優(yōu)缺點(diǎn)
語(yǔ)音識(shí)別提供了許多好處:
消費(fèi)者可以通過(guò)直接與語(yǔ)音助手或其他語(yǔ)音識(shí)別技術(shù)交談來(lái)進(jìn)行多任務(wù)處理。
視力有問(wèn)題的用戶仍然可以與其設(shè)備進(jìn)行交互。
機(jī)器學(xué)習(xí)和復(fù)雜的算法幫助語(yǔ)音識(shí)別技術(shù)快速將口語(yǔ)轉(zhuǎn)換為書(shū)面文本。
這項(xiàng)技術(shù)可以比某些用戶打字更快地捕獲語(yǔ)音。這使得記筆記或設(shè)置提醒等任務(wù)更快、更方便。
但是,該技術(shù)的一些缺點(diǎn)包括:
背景噪音會(huì)產(chǎn)生錯(cuò)誤輸入。
雖然準(zhǔn)確率正在提高,但所有語(yǔ)音識(shí)別系統(tǒng)和程序都會(huì)出錯(cuò)。
聽(tīng)起來(lái)相似但拼寫(xiě)不同且含義不同的單詞存在問(wèn)題 - 例如,聽(tīng)到和這里。使用存儲(chǔ)的上下文信息可以在很大程度上解決此問(wèn)題。但是,這需要更多的 RAM 和更快的處理器。
語(yǔ)音識(shí)別的歷史
語(yǔ)音識(shí)別技術(shù)在過(guò)去五十年中呈指數(shù)級(jí)增長(zhǎng)。追溯到1976年,計(jì)算機(jī)只能理解1000多個(gè)單詞。隨著IBM繼續(xù)開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù),這一總數(shù)在20世紀(jì)80年代躍升至約20000人。
1952年,貝爾實(shí)驗(yàn)室發(fā)明了AUDREY——自動(dòng)數(shù)字識(shí)別器——它只能理解零到九的數(shù)字。20世紀(jì)70年代初至中期,美國(guó)國(guó)防部開(kāi)始為語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)做出貢獻(xiàn),資助了國(guó)防高級(jí)研究計(jì)劃局的語(yǔ)音理解研究。由卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)的Harpy是當(dāng)時(shí)的另一種語(yǔ)音識(shí)別系統(tǒng),最多可以識(shí)別1011個(gè)單詞。
Dragon公司于1990年推出了第一款面向消費(fèi)者的揚(yáng)聲器識(shí)別產(chǎn)品Dragon Dictate。這后來(lái)被Nuance Communications的Dragon NaturallySpeaking取代。1997年,IBM推出了IBM ViaVoice,這是第一款可以識(shí)別連續(xù)語(yǔ)音的語(yǔ)音識(shí)別產(chǎn)品。
蘋(píng)果公司在2011年推出了Siri,它仍然是一款出色的語(yǔ)音識(shí)別助手。2016年,谷歌推出了手機(jī)谷歌助手。語(yǔ)音識(shí)別系統(tǒng)可以在手機(jī)、智能揚(yáng)聲器、筆記本電腦、臺(tái)式機(jī)和平板電腦等設(shè)備中找到,也可以在Dragon Professional和Philips SpeechLive等軟件中找到。
在過(guò)去的十年里,其他幾位技術(shù)領(lǐng)導(dǎo)者開(kāi)發(fā)了更復(fù)雜的語(yǔ)音識(shí)別軟件,例如亞馬遜Alexa。亞馬遜Alexa于2014年發(fā)布,也是一款響應(yīng)語(yǔ)音命令的個(gè)人助理。目前,語(yǔ)音識(shí)別軟件可用于Windows、Mac、Android、iOS和Windows手機(jī)設(shè)備。