售前電話
135-3656-7657
售前電話 : 135-3656-7657
概念理解
ASR是英文AutomaticSpeechRecognition第一個(gè)英文字母的縮寫簡(jiǎn)稱。意思是自動(dòng)語(yǔ)音識(shí)別技術(shù)。是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù)。
ASR,或自動(dòng)語(yǔ)音識(shí)別,是指讓程序自動(dòng)轉(zhuǎn)錄口語(yǔ)(語(yǔ)音到文本)的問(wèn)題。我們的目標(biāo)通常是在轉(zhuǎn)錄語(yǔ)音輸入時(shí),有一個(gè)模型,將Word錯(cuò)誤率(WER)指標(biāo)降至最低。換句話說(shuō),鑒于某些音頻文件(例如包含語(yǔ)音的WAV文件),我們?nèi)绾螌⑵滢D(zhuǎn)換為相應(yīng)的文本,并盡可能少地進(jìn)行錯(cuò)誤處理?
傳統(tǒng)的語(yǔ)音識(shí)別采用生成方法,模擬語(yǔ)音聲音生成方式的完整管道,以便評(píng)估語(yǔ)音樣本。我們將從一個(gè)語(yǔ)言模型,封裝最有可能的單詞順序生成(例如n-gram模型),到該順序中每個(gè)單詞的發(fā)音模型(例如發(fā)音表),到將這些發(fā)音轉(zhuǎn)換為音頻波形(例如高斯混合模型)的聲學(xué)模型。
然后,如果我們收到一些口頭輸入,我們的目標(biāo)是找到最有可能的文本序列,將導(dǎo)致根據(jù)我們的生成模型管道的給定音頻??偟膩?lái)說(shuō),通過(guò)傳統(tǒng)的語(yǔ)音識(shí)別,我們嘗試建模,并利用這個(gè)可能的成績(jī)單。Pr(audio|transcript)*Pr(transcript)
隨著時(shí)間的推移,神經(jīng)網(wǎng)發(fā)展到傳統(tǒng)語(yǔ)音識(shí)別模型的每個(gè)組件可以被性能更好且具有更大泛化潛力的神經(jīng)模型所取代的地步。例如,我們可以用神經(jīng)語(yǔ)言模型替換n-gram模型,用神經(jīng)發(fā)音模型替換發(fā)音表,依次是。但是,每個(gè)神經(jīng)模型都需要單獨(dú)接受不同任務(wù)的培訓(xùn),而流體中任何模型的錯(cuò)誤都可能放棄整個(gè)預(yù)測(cè)。
因此,我們可以看到端到端ASR架構(gòu)的吸引力:歧視性模型,只需接收音頻輸入并提供文本輸出,并且其中架構(gòu)的所有組件都一起訓(xùn)練以實(shí)現(xiàn)相同的目標(biāo)。該模型的編碼器類似于提取語(yǔ)音特征的聲學(xué)模型,然后可以直接通過(guò)管道輸送到輸出文本的解碼器。如果需要,我們可以集成一個(gè)語(yǔ)言模型,以改善我們的預(yù)測(cè),
整個(gè)端到端的ASR模型可以同時(shí)進(jìn)行訓(xùn)練——一個(gè)更容易處理的管道!
ASR工作原理
在過(guò)去幾年中,語(yǔ)音助手已經(jīng)無(wú)處不在,谷歌首頁(yè),亞馬遜回聲,Siri,Cortana等的受歡迎程度。這些是自動(dòng)語(yǔ)音識(shí)別(ASR)的最知名示例。這一類應(yīng)用程序從某些語(yǔ)言的口語(yǔ)音頻剪輯開(kāi)始,并提取已使用的單詞作為文本。因此,它們也被稱為語(yǔ)音到文本算法。
像Siria和上面提到的其他應(yīng)用程序,會(huì)走得更遠(yuǎn)。他們不僅提取文本,而且還解釋和理解所講內(nèi)容的語(yǔ)義,以便他們能夠回答,或根據(jù)用戶的命令采取行動(dòng)。在本文中,我將重點(diǎn)介紹通過(guò)深度學(xué)習(xí)對(duì)文本進(jìn)行語(yǔ)音到文本的核心能力。我的目標(biāo)將是不僅了解某樣?xùn)|西是如何工作的,而且了解為什么它這樣工作。
我在我的音頻深度學(xué)習(xí)系列中還有幾篇文章,你可能會(huì)發(fā)現(xiàn)有用。他們探索這個(gè)領(lǐng)域的其他引人入勝的話題,包括我們?nèi)绾螢樯疃葘W(xué)習(xí)準(zhǔn)備音頻數(shù)據(jù),為什么我們使用Mel光譜儀進(jìn)行深度學(xué)習(xí)模型,以及如何生成和優(yōu)化這些模型。