語(yǔ)音識(shí)別的前世今生|深度學(xué)習(xí)徹底改變對(duì)話式人工智能
由于深度學(xué)習(xí)與語(yǔ)音識(shí)別相結(jié)合,因此對(duì)CPU和內(nèi)存的占用量不容小覷。隨著用戶大量采用語(yǔ)音識(shí)別系統(tǒng),構(gòu)建經(jīng)濟(jì)高效的云解決方案是一個(gè)具有挑戰(zhàn)性的重要問題。對(duì)如何降低計(jì)算成本并開發(fā)更有效的解決方案的研究一直在進(jìn)行。今天,大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都是基于云的,并且具有必須解決的兩個(gè)具體問題:延遲和持續(xù)連接。延遲是需要立即響應(yīng)的設(shè)備(如機(jī)器人)的關(guān)鍵問題。在長(zhǎng)時(shí)間監(jiān)聽的系統(tǒng)中,由于帶寬成本,持續(xù)連接是一個(gè)問題。因此,還需要對(duì)邊緣語(yǔ)音識(shí)別的研究,它必須保持基于云的系統(tǒng)的質(zhì)量。
解決語(yǔ)音識(shí)別問題
近年來(lái),語(yǔ)音識(shí)別的表現(xiàn)和應(yīng)用出現(xiàn)了巨大的飛躍。我們離完全解決這個(gè)問題還有多遠(yuǎn)?答案也許五年、也許十年,但仍然有一些挑戰(zhàn)性的問題需要時(shí)間來(lái)解決。
第一個(gè)問題是對(duì)噪音的敏感性問題。一個(gè)語(yǔ)音識(shí)別系統(tǒng)在非常接近麥克風(fēng)而且不嘈雜的環(huán)境中運(yùn)行得很好然而,如果說話的聲音比較遠(yuǎn)或者環(huán)境很嘈雜能迅速降低系統(tǒng)的效能。
第二個(gè)必須解決的問題是語(yǔ)言擴(kuò)展:世界上大約有7000種語(yǔ)言,絕大多數(shù)語(yǔ)音識(shí)別系統(tǒng)能夠支持的語(yǔ)言數(shù)量大約是八十種。擴(kuò)展系統(tǒng)帶來(lái)了巨大的挑戰(zhàn)。
此外,我們?nèi)鄙僭S多語(yǔ)言的數(shù)據(jù),庫(kù)卡機(jī)器人驅(qū)動(dòng)器維修,而且匱乏數(shù)據(jù)資源則難以創(chuàng)建語(yǔ)音識(shí)別系統(tǒng)。
結(jié)論
深度學(xué)習(xí)在語(yǔ)音識(shí)別和對(duì)話式AI領(lǐng)域刻下了深深的印記。而鑒于該技術(shù)最近獲得的突破,KUKA機(jī)器人電路板維修,我們真的正處于一場(chǎng)革命的邊緣。
而最大的問題在于,我們是否準(zhǔn)備贏得語(yǔ)音識(shí)別領(lǐng)域的技術(shù)挑戰(zhàn),并像其他商品化技術(shù)一樣開始運(yùn)用它呢?或者說,是否還有另一個(gè)新的解決方案正等待著我們?nèi)グl(fā)現(xiàn)?畢竟,機(jī)器人維修,語(yǔ)音識(shí)別的最新進(jìn)展只是未來(lái)科技藍(lán)圖的一小塊:語(yǔ)言理解本身就是一個(gè)復(fù)雜而且或許更加強(qiáng)大的一個(gè)領(lǐng)域。