千萬銷量百億市場,人工智能語音芯片正崛起
隨著智能音箱的火熱以及背后語音交互生態的成熟,將會帶動越來越多的設備語音化、智能化,使語音真正成為人機交互的一個界面。而在語音交互設備中,語音芯片憑借定制化、低功耗、高能效、端智能以及成本優勢等地位越發重要,成為人與云端溝通的橋梁。
在智能語音市場,隨著亞馬遜、谷歌等互聯網巨頭公司的推動,僅僅是智能音箱一個品類今年的全球銷量預期有望達到3000萬臺,并陸續涌現在各個國家,市場呈爆發之態。作為語音芯片市場最大的玩家聯發科以占據了70%的市場份額,2017年語音芯片出貨量預計達到2000萬片以上。
智東西通過調查梳理發現,隨著語音交互的涌現,誕生了一個新的語音芯片行業,數十家公司參與其中,語音芯片的發展呈現初期通用組合芯片語音芯片涌現語音AI芯片蓄勢待發的趨勢。通過語音芯片發展的三階段以及數十家芯片公司的介紹,智東西為你呈現語音芯片的崛起!
▲注以上為智東西不完全統計
綜述:語音芯片發展三階段
本文所講的語音芯片側重于智能語音設備興起后,專門為語音交互場景打造的SoC芯片(芯片級系統,SystemonChip),它兼具運算力和低功耗,支持多通道麥克風陣列接口,支持信號處理算法等。
在人機對話的語音交互中,語音識別、語義理解、語音合成、任務執行等都是在云端進行。而在終端側,語音芯片的作用是對智能語音設備拾取的多通道聲音進行處理并傳輸到云端,并將反饋結果以語音的形式輸出。如果說云端是智能語音設備的大腦,那么語音芯片就是連接人與云腦的橋梁。
目前,智能音箱的迅速發展正成為語音芯片崛起的重要動力。結合產業鏈各方消息,智東西此前預測智能音箱市場規模在今年年底有望達到3000萬臺。這意味著僅僅是智能音箱的發展,就推動語音芯片市場達到3000萬量級,盡管與以億為計算單位的手機芯片無法相提并論,但作為一個新興品類,仍處于快速發展期。
在智能音箱這個市場中,庫卡機器人,聯發科、德州儀器、科勝訊、全志科技、杭州國芯、晶晨科技、成都啟英泰倫等芯片廠商都推出相關的語音芯片,且又以聯發科一家獨大,占據智能音箱約七成市場份額,粗略計算聯發科在2017年語音芯片銷量將達2000萬片以上。
通過對目前市面上語音芯片的觀察,我們發現語音芯片有以下特點:其一兼具運算能力和低功耗的考量,采用最適合做語音處理的CPU(中央處理器);其二是具備高度整合性的語音SoC,支持多通道的麥克風陣列接口,集成Codec(多媒體數字信號編解碼器)模塊/DSP(數字信號處理)模塊,并且集成WiFi/藍牙模塊等;其三在語音算法上支持回聲消除、噪聲抑制、聲源定位、語音增強等技術,或具備良好的音值調節功能;其四端智能化,集成神經網絡單元將部分云端訓練好的智能本地化工作。
通過智東西近期對產業鏈的采訪以及梳理,根據語音交互的發展狀況,將語音芯片的發展歸納為三個階段,第一個階段為語音芯片過渡期,采用通用芯片組合方案;第二個階段為崛起期,語音芯片興起;第三個階段為語音芯片進化期,語音AI芯片涌現。
第一階段,大約2015年以前盡管智能語音設備,包括智能音箱、遠場交互的智能電視等都已出現,但在市場尚未起量的情況下,語音設備采用的多是通用芯片+Codec芯片/DSP芯片等相結合的方式實現語音處理,如全志的R16芯片。
2015年到2017年之間,隨著智能語音設備市場規模進一步發展,專門用于智能家居或智能音箱的語音芯片開始陸續亮相,包括聯發科推出的MT8516芯片、科勝訊的CX20924/CX20921、Amlogic的A113、瑞芯微的RK3036/RK3229等。
此外,隨著智能語音設備的迅速發展,對于端智能的需求也在顯現,語音AI芯片應運而生。端智能是近兩年來AI領域大火的概念之一,指的是數據的采集、計算、決策都在前端設備進行,優勢在于穩定、時延小、同時能夠保護用戶隱私等。如杭州國芯推出的GX8010和啟英泰倫推出的CI1006都屬于語音AI芯片。
前期:通用芯片組合搭配
在智能語音設備的市場早期階段,由于芯片研發漫長的周期(一般需要18~24個月),高昂的研發投入,工業機器人維修,因此在市場規模尚不大的情況下,市場并沒有專門的語音芯片應用到智能語音設備中。
2010年6月微軟推出的Kinect體感周邊設備、2012年三星推出的遠講語音電視、2014年秋亞馬遜推出的智能音箱Echo以及2015年京東&科大訊飛推出的叮咚音箱等是智能語音設備的早期代表,它們采用的多是通用芯片(AP芯片/平板芯片等)+Codec芯片/DSP芯片等組合的方式,由Codec芯片進行模擬信號的數字信號的抓換,DSP部分對數字信號進行處理,包括回聲消除、噪聲抑制、語音降噪/增強等,使語音便于后端的語音識別,再由通用芯片進行處理傳輸到云端提供語音處理的計算力支持。
以亞馬遜Echo為例,2014年秋天亞馬遜推出智能音箱Echo,最初使用的是TI(德州儀器)的DM3725數字媒體處理器,該芯片之前主要應用在多媒體設備、視頻機頂盒、游戲終端等,在進行語音傳輸處理時,仍需要搭配Codec芯片。在早期的Ehco中,亞馬遜使用TI的DM3725(數字媒體處理器)+TI的ADC(模數轉換器)來實現。
▲德州儀器DM3725芯片
后來或許是處于成本以及其他考慮,亞馬遜的一些產品開始使用聯發科MT8563芯片,這款芯片同樣不是語音專用芯片。直到今年Q2季度,聯發科推出了MT8516才算真正意義上的語音芯片。
另外一個例子是國內早期智能音箱的代表叮咚音箱,最初國內也沒有專用語音芯片,采用的是全志科技R16芯片+科勝訊Codec芯片的方式進行語音處理,而全志R16之前則是用于平板的芯片。
在語音交互場景的早期,智能設備并無太多銷量,即使看到了這一潛在機會,研發一款專用芯片的時間成本、投資成本都決定了在最初一段時間,智能設備需要使用通用芯片或其他芯片作為過渡期。
中小語音芯片廠商涌現
隨著智能語音設備銷量不斷增長,典型的就是2016年以來,以亞馬遜Echo為代表的智能音箱市場規模的不斷擴大,專用的語音芯片也開始出現,2016年又剛好是語音芯片興起最集中的一年。
其實早在2013年7月國內首顆專用語音芯片就誕生了,它由四川長虹和中科院聲學所付強(現為先聲互聯創始人)團隊共同研發。新研發出的長虹語音芯片的優勢是在語音識別的基礎上,融合了多方面的語音增強功能,包括語音降噪、回聲消除、波束形成等,支持低功耗喚醒,能夠實現遠場語音采集。可能因為四川長虹的一些原因,這款芯片在研發出后并沒有投入生產,之后就不了了之。
2015年以后語音芯片就開始陸續興起,包括聯發科MT8516、科勝訊CX20924、晶晨半導體A113、瑞芯微RK3036、北京君正X1000等公司,如聯發科推出了MT8516應用在了阿里天貓精靈上,晶晨A113應用在了小米AI音箱上。
▲阿里天貓精靈主控板上使用的聯發科MT8516芯片