Facebook使用AI來(lái)實(shí)現(xiàn)文字轉(zhuǎn)語(yǔ)音系統(tǒng)
在人工智能領(lǐng)域中,語(yǔ)音也是AI技術(shù)的一部分,說到語(yǔ)音合成,它是通過機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音的技術(shù)。TTS技術(shù)(又稱文語(yǔ)轉(zhuǎn)換技術(shù))隸屬于語(yǔ)音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚摹⒘骼臐h語(yǔ)口語(yǔ)輸出的技術(shù)。
據(jù)媒體報(bào)道,F(xiàn)acebook研究員開源了其在今年七月發(fā)表的一篇論文中的語(yǔ)音合成方法。在論文中,他們提出了一種新的文字轉(zhuǎn)語(yǔ)音的神經(jīng)網(wǎng)絡(luò)方法,工業(yè)機(jī)器人維修,可以將從開放場(chǎng)景下采樣到的聲音中提取的文字轉(zhuǎn)化為語(yǔ)音。
說到神經(jīng)網(wǎng)絡(luò),該技術(shù)基于新的移位緩沖內(nèi)存儲(chǔ)器區(qū),評(píng)估使用者注意力,計(jì)算輸出音頻,機(jī)器人維修,KUKA機(jī)器人示教器維修,以及自身的更新,可用于在開放場(chǎng)景下采樣到的聲音轉(zhuǎn)化成文字,再轉(zhuǎn)化成語(yǔ)音。該技術(shù)的網(wǎng)絡(luò)架構(gòu)比現(xiàn)存的同類架構(gòu)要簡(jiǎn)單。
此外,通過使用與上下文無(wú)關(guān)的查找表對(duì)輸入語(yǔ)句進(jìn)行編碼,該表的每個(gè)條目包含一個(gè)字符或音素。同樣,能通過一個(gè)短向量來(lái)表示說話者,這個(gè)短向量也適用于新說話者。而且在生成音頻之前,優(yōu)先準(zhǔn)備好緩沖區(qū)可以使生成的語(yǔ)音具有可變性。