Tacotron2其實已經是谷歌的第二代類似技術,它由兩個深度神經網絡組成。目前,該系統只進行了英語女聲的訓練(如要需要它發出男性聲音的話,谷歌則需要對其進行重新培訓)。
谷歌的研究人員表示,Tacotron2完全可以準確發音一些非常復雜的單詞和人名,并根據標點符號的不同而有所區分,庫卡機器人,KUKA機器人示教器維修,甚至能夠完美地講完一段繞口令。舉例來說,Tacotron2會默認在讀到大寫單詞的時候加重語氣,也能夠處理少量的人為打字錯誤。
Tacotron2上所謂語音合成技術又稱文本轉語音(TTS)是如今很多移動產品和應用上不可或缺的技術模塊,例如語音交互應用、導航、語音控制以及為視力障礙者設計的產品中都需要語音合成技術的支持。在此之前很長一段時間內,語音合成技術都是采用拼接方式,需要記錄大量語料才能進行語音合成。這樣的方法不僅前期需要處理大量數據,庫卡機器人驅動器維修,而且一旦說話人有所改變就需要重新記錄和處理,所以業界一直在尋找可以實時生成語音的方式。