科大訊飛胡郁:中美將迎來人工智能巔峰對決
迄今為止,宇宙的壽命是138億年,地球是40億年,機器人維修,而從猿進化到人,我們用了300多萬年的時間。而機器人用了多長時間呢?1940年以來,從人工智能之父圖靈開始,大批的科學家們就在不停地考慮,在數字宇宙當中,是不是可以真正產生人工智能和生命。
人工智能自1956年被命名開始,到現在,僅僅經過了60多年的發展歷程。與人類智慧相比,可以說只是一瞬間的事情。并且,這一過程也并不是一帆風順的,它經歷了三個大的發展浪潮。中國非常幸運地趕上了第二次和第三次。
人工智能的第二次浪潮發生在上世紀的八九十年代。當時,中國的863計劃啟動,科大訊飛的前身中國科學技術大學語音研究評測實驗室在這一契機之下,成為了國家863項目之一,為中國培育出了一批研究人員和相關技術成果。
人工智能的第三次浪潮是21世紀前十年的事。當世界再一次進入到一個新的產業化浪潮之中,中國又非常幸運地積累了有關互聯網、移動互聯網、云計算和大數據的產業基礎,這也恰恰是科大訊飛所需要的。所以說,如今,在人工智能領域爭霸的基本上都是中美兩國的企業。包括科大訊飛在內,都是在1999年,也就是第二次浪潮和第三次浪潮之間的低谷成立并發展起來的。盡管與人類歷史相比,人工智能是非常短暫的,但是對人能智能的研究卻是非常長周期的科技創新方向,它需要十年磨一劍,需要我們具有板凳能坐十年冷的精神,然后才能在原始的核心技術系統創新的基因和工程能力方面實現厚積薄發。
人工智能與機器自主決策并無關聯
最近五六年,隨著人工智能從尖端科研領域逐漸走進人們的視野,社會上對它的討論也多了起來。有人說,如果做得不好,人工智能將會毀滅人類。但是我的觀點是,現在我們研究所謂的人工智能,其實只是對工業界而言的。在工程層面上講,這也是為工業界所推崇的方向。原因是什么呢?因為它能夠解決實際的任務。但是,在真正研究人工智能理論、數學和概率的專家看來,我們所研究的深度神經網絡和大數據并不是機器學習的最好方法。這種基于工程研究的深度神經網絡算法和機器意識,或者說能夠讓機器產生自主決策的思路并無關聯。所以,從這一點上講,我們不用擔心人工智能會毀滅人類。
但是仍然有很多人對此抱有疑問。他們會說,人工智能已經打敗了人類最頂級的棋手,工業機器人維修,那么隨著它的發展,將來,我們所有工作是不是終將被人工智能所取代?人類會不會成為無用的存在呢?這就要看人工智能所擅長的領域是什么,以及它在哪些方面能夠替代人類技能。過去幾年,科大訊飛一直提倡的是,我們應該把人工智能由強到弱、將人類智慧由弱到強地分解為很多不同的方面,并且從不同的角度去談論人工智能。
比如,我們知道,機器從發明的第一天開始就特別擅長運算,所以,對于很多信息完全公開的任務,www.twshmhelmet.com,機器在運算智能上擁有絕對的優勢。但是,人和動物所擁有的智能,比如在感知智能和運動智能方面,機器和機器人與人類的差距還相當大。尤其是對于人類來說,我們在認知智能方面要遠遠高于動物,所以能夠理解語言,能夠學習知識,能夠進行邏輯推理。AlphaGo雖然可以戰勝李世石九段,但是它無法理解人類的情感和理念。所以在這一點上,機器更無法與人類匹敵。
因此,科大訊飛認為,當前人工智能急需突破的是恰恰是人類區別于動物的最本質的智能,即認知智能。簡單地說,就是從感知的能聽會說到認知的會理解、會思考。像教師、醫生等等職業,是要通過大量的讀書、學習,基于對文字的理解,基于邏輯思維的加工才能實現對專業能力的掌握。如果讓人工智能也擁有這樣的能力,就必須依賴于機器認知智能的進步。目前,科大訊飛對超腦技術的研究就是基于這樣的方向。
人工智能對產品的改造
目前,中國的機器在感知智能和認知智能方面已經取得了一些不錯的成果。在國際最高水平的語音合成大賽上,中國的人工智能系統已經連續12年處于國際最領先的水平。我們可以讓機器說英文,還可以用奧巴馬的嗓音來說中文。在英文的語音識別大賽上,科大訊飛有三個語音識別指標獲得了第一名的成績。更重要的是,在研究和工程領域,我們都運用了大量的深度神經網絡學習技術。這是我們在國際上一些最新的進展。但是,掌握這些技術并不代表著我們就知道如何在各種場景之下,用最正確的去使用人工智能。
所以,很多人會問,人工智能到底會在哪些方面改變我們的生活呢?有人會說,人工智能可以幫助我們駕駛汽車,可以幫助我們照顧小孩,等等。如果把它高度抽象起來,我覺得無外乎兩個方面:
第一個方面,我們都知道,生活中有大量的產品和服務。人工智能第一個作用就是用它特有的方法改變這些產品和服務本身。比如說汽車,我們可以讓它更聰明、更懂我們,從而實現自動駕駛;我們可以讓手機理解我們的意思,能夠看懂我們的表情,等等。所以,不管是一針、一物,還是各種各樣的產品本身,人工智能都可以讓它們很自然地與我們進行交互,讓產品更懂人。人工智能通過自我學習的方法,在很大程度上改變了產品和服務的生產過程,從而改變了整個世界。同時,因為在產品和服務的生產過程中,人工智能能夠利用其本身學習專家系統的能力,替換掉大量的行業專家或有經驗的工人,并在這些行業中不斷生產出具有人工智能性能的產品和服務。
第二個方面,人工智能率先將產品模式定義為交互而非操作。在工業革命時期,人類是通過學習的方法來適應機器的,但是在人工智能時代,這種模式被顛倒了過來。機器可以自動學習人類的習慣,比如原來我們需要學習打字技術,要學習如何使用鼠標,但慢慢地我們會發現,人類只要通過觸摸就可以讓機器理解我們的意思,并像我們所需要的那樣去執行。語音與視覺的交互
有一個非常有意思的事情。通常認為,人類80%的信息來源是通過眼睛獲取的,那么,計算機視覺對人類而言是不是更為重要呢?在這一點上,我的觀點恰恰相反。我認為,視覺識別還遠遠達不到語音識別的重要程度。為什么這么說呢?不知道大家注意到沒有,目前的智能設備都有一個大的顯示屏,顯示屏中有各種各樣圖形。人類擁有非常強大的圖形語義理解能力,所以,人類能夠識別出任何一個圖形所表達的語義,能夠快速地理解機器通過顯示屏呈現出來的圖片的含義。但是反過來,人卻沒有顯示屏。所以說,就算機器擁有非常強大的圖形理解能力,但人類卻不是通過跳舞或者繪畫的方式與機器進行交互的。人類的信息不會通過圖形來傳遞,因此,讓機器通過識別人腦中的圖像來理解人類,這似乎不太現實。