李飛飛新研究:基于深度學習和視覺化語言來了解不同物體間的關系
2017未來科學大獎頒獎典禮暨未來論壇年會28、29日在京舉辦,斯坦福大學終身教授、谷歌云首席科學家李飛飛在人工智能研討會上表示,最近她所在的實驗室正在做一項新研究,基于深度學習和視覺化語言模式了解不同物體之間的關系。
李飛飛表示,無論是動物智能還是機器智能,視覺都是非常重要的技術。視覺是人腦中最為復雜的系統,占有大腦中50%的認識單位。視覺反應速度非常快,只需要150微秒。這使得圖像識別技術變得非常重要但又十分復雜。
過去8年時間,圖像識別的錯誤率降低了10倍。2012年對GPU和深度識別技術的了解讓這一領域實現了突破。但是,在一個圖集中,要獲得數據和物體之前關系的信息依然很難,目前所能做的工作都十分有限。李飛飛所在實驗室正在為攻克這一領域展開新的研究。
她列舉了一張圖中的算法,這種算法可以預測不同物體之間的空間關系,進行對比,了解這種對稱的關系,然后了解物體之間的動作,以及它們的之間位置關系。物體之間還能有什么樣的數據集,提供一個標簽,進行短句子描述。進行進一步了解視覺世界,而不僅僅是一系列的物體名稱,實驗室正在做相關量化研究。
以下是李飛飛演講實錄,enjoy:
今天我給大家帶來的是最近的一些研究思路,今天我的演講內容是關于視覺智能,動物世界當中有很多物種,而且有一種非常了不起,絕大多數動物都有眼睛,因此視覺是最為重要的一種感觀的方法和認知方法,這是在動物的大腦當中,幫助動物在世界當中生存下來進行溝通,去操控和生存。
所以我們無論是討論動物智能或者是機器智能的話,視覺是非常重要的基石。世界上所存在的這些系統當中,最為了解的一點是我們所知道的人類視覺系統。所以在5億多年前的時候,這個進化已經不斷地讓我們的視覺系統不斷地發展,使得我們的視覺系統非常重要的去理解這個世界,而且這是我們大腦當中最為復雜的系統,而且有50%的大腦當中的這些認知的單位,都有著最為復雜、最為高級的感知系統,所以能夠讓我們知道人類的視覺系統非常了不起。
這是認知心理學家做過的一個最為著名的一個實驗,這也就是告訴大家人類的視覺體系有多么了不起,大家看一下這個視頻,你的任務是如果看到一個人的話就舉手,這是一個智商測試。所以每個圖景的時間是非常短的,也就是1/10秒,不僅這樣,而且讓大家看一個人的話,并沒有告訴你是什么樣的人,或者他站在哪里,什么樣的姿勢,穿什么樣的衣服,然而大家仍然能很快地識別出這個人。
1996年的時候,Newl(音譯)教授學生證明出視覺認知能力是人類大腦當中最為了不起的能力,因為速度非常快,而且大概是150微秒,在150微秒之內,我們的大腦能夠區別非常復雜的圖像。會把非常復雜的含動物和不含動物的圖像區別出來,那個時候計算機沒有接近人類的,這種工作激勵著計算機科學家,希望解決最為基本的問題就是圖像識別問題。
過了20年到現在,計算機領域和專家也在這個問題上發明了幾代技術,這個就是我們所了解到的這些圖集,當然也取得了非常大的進展和進步。這張圖表是給大家總結一下,在過去的幾年當中,KUKA機器人示教器維修,在分類挑戰當中一些標志性的項目,橫軸是時間年份,左邊縱軸指的是分類錯誤。我們能夠看到它的錯誤是降低了10倍。8年的時間里錯誤率就降低了十倍,所以這八年當中經歷了非常大的革命。
2012年的時候了解了GPU技術,以及深度識別技術,幫助世界了解在深層學習革命的一個發展,所以非常令人激動的領域,尤其過去幾十年在人工智能的研究。作為科學家就會想一下在這個圖集之外,還可以做到什么。
通過一個例子告訴大家,兩張圖片,包括一個動物和一個人,通過圖像識別來看這兩個圖非常相似,但是他們的故事卻是非常不同的,當然你肯定不想在右邊的圖的場景當中,我們在這就會出現一個非常重要的問題,就是人們能夠做的,這也是最為重要、最為基礎的一點圖像識別功能,就是識別圖像物體之間的關系,首先這個輸入是圖像本身,但是我們所輸出的信息包括物體的位置以及物體之間的關系。當然這個領域有一些前期工作,但是絕大多數工作都是比較有限的。獲得數據和物體之間的關系信息比較有限。
最近我們的實驗當中做了這樣一項工作,開始新的研究,預測根據深度學習,以及視覺化語言模式了解不同物體之間的關系。
這張圖的算法能夠預測不同物體之間的空間關系,進行對比,了解這種對稱的關系,然后了解他們之間的動作,以及他們的之間位置關系。所以這就是一個更為豐富的方法,了解我們的視覺世界,而不僅僅是一系列的物體名稱,這是我們所做出的一些量化研究。說明我們的工作在不斷地進展和取得進步的。
一年前的時候,我們知道這個領域發展非常快,就是關于計算機圖像識別方面。我們也知道有很多新的研究已經超過了我們的研究成果。
我們可以看一下,在他們之間的關系是什么,而且在這個圖像當中不同物體的關系,能夠讓我們去更進一步了解這個問題,就是在物體之間還會有什么樣的數據集。最開始我們知道有這個形象,非常有限的信息,比如這是一個物體,COCO進一步學習,提供一個標簽,進行短句子描述,視覺數據信息是非常復雜和非常多的,
根據途徑出來一些問答,經過三年的研究,我們發現可以有更為豐富的方法來描述這些內容,通過這些不同的標簽,描述這些物體,包括他們的性質、屬性以及關系,然后通過這樣的一個圖譜建立起他們之間的聯系。可以在這看一下這個內容。這樣一個數據庫當中,包括上千個標簽,工業機器人維修,包括屬性和關系,還有句子、問答信息,在我們這樣一個信息庫當中,能夠非常精確地讓我們來進行更加精確的研究,而不僅僅知道物體識別本身。
我們如何來去使用這樣的圖表呢?我們做過的一個工作,就是我們看一下這個場景的搜索,大家無論在百度還是在Google搜索中,搜索過圖像或者圖集,比如可以輸入穿西裝的男性,可以展現出很多的圖,如果輸入可愛的小狗的話,有很多類似的圖會出現,這一點非常好。同時看一下他們解決了什么問題呢?是否解決了圖像搜索的問題呢?我們輸入一個句子,男性穿著西裝,抱著可愛的小狗,瞬間結果不是特別好了。絕大多數搜索引擎的這種算法,在搜索圖像的時候,可能很多還是僅僅使用物體本身的信息,他們只是簡單地了解這個圖有什么物體,但是這是不夠的。
如果我想搜索一個坐在椅子上的男性的話,如果物體本身給我們一個人形象或者椅子形象再能加上更多的屬性,加上更多的信息,這個結果就會更好一些。