李飛飛新研究:基于深度學(xué)習(xí)和視覺化語言來了解不同物體間的關(guān)系
2017未來科學(xué)大獎(jiǎng)?lì)C獎(jiǎng)典禮暨未來論壇年會(huì)28、29日在京舉辦,斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛在人工智能研討會(huì)上表示,最近她所在的實(shí)驗(yàn)室正在做一項(xiàng)新研究,基于深度學(xué)習(xí)和視覺化語言模式了解不同物體之間的關(guān)系。
李飛飛表示,無論是動(dòng)物智能還是機(jī)器智能,視覺都是非常重要的技術(shù)。視覺是人腦中最為復(fù)雜的系統(tǒng),占有大腦中50%的認(rèn)識(shí)單位。視覺反應(yīng)速度非常快,只需要150微秒。這使得圖像識(shí)別技術(shù)變得非常重要但又十分復(fù)雜。
過去8年時(shí)間,圖像識(shí)別的錯(cuò)誤率降低了10倍。2012年對(duì)GPU和深度識(shí)別技術(shù)的了解讓這一領(lǐng)域?qū)崿F(xiàn)了突破。但是,在一個(gè)圖集中,要獲得數(shù)據(jù)和物體之前關(guān)系的信息依然很難,目前所能做的工作都十分有限。李飛飛所在實(shí)驗(yàn)室正在為攻克這一領(lǐng)域展開新的研究。
她列舉了一張圖中的算法,這種算法可以預(yù)測不同物體之間的空間關(guān)系,進(jìn)行對(duì)比,了解這種對(duì)稱的關(guān)系,然后了解物體之間的動(dòng)作,以及它們的之間位置關(guān)系。物體之間還能有什么樣的數(shù)據(jù)集,提供一個(gè)標(biāo)簽,進(jìn)行短句子描述。進(jìn)行進(jìn)一步了解視覺世界,而不僅僅是一系列的物體名稱,實(shí)驗(yàn)室正在做相關(guān)量化研究。
以下是李飛飛演講實(shí)錄,enjoy:
今天我給大家?guī)淼氖亲罱囊恍┭芯克悸,今天我的演講內(nèi)容是關(guān)于視覺智能,動(dòng)物世界當(dāng)中有很多物種,而且有一種非常了不起,絕大多數(shù)動(dòng)物都有眼睛,因此視覺是最為重要的一種感觀的方法和認(rèn)知方法,這是在動(dòng)物的大腦當(dāng)中,幫助動(dòng)物在世界當(dāng)中生存下來進(jìn)行溝通,去操控和生存。
所以我們無論是討論動(dòng)物智能或者是機(jī)器智能的話,視覺是非常重要的基石。世界上所存在的這些系統(tǒng)當(dāng)中,最為了解的一點(diǎn)是我們所知道的人類視覺系統(tǒng)。所以在5億多年前的時(shí)候,這個(gè)進(jìn)化已經(jīng)不斷地讓我們的視覺系統(tǒng)不斷地發(fā)展,使得我們的視覺系統(tǒng)非常重要的去理解這個(gè)世界,而且這是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng),而且有50%的大腦當(dāng)中的這些認(rèn)知的單位,都有著最為復(fù)雜、最為高級(jí)的感知系統(tǒng),所以能夠讓我們知道人類的視覺系統(tǒng)非常了不起。
這是認(rèn)知心理學(xué)家做過的一個(gè)最為著名的一個(gè)實(shí)驗(yàn),這也就是告訴大家人類的視覺體系有多么了不起,大家看一下這個(gè)視頻,你的任務(wù)是如果看到一個(gè)人的話就舉手,這是一個(gè)智商測試。所以每個(gè)圖景的時(shí)間是非常短的,也就是1/10秒,不僅這樣,而且讓大家看一個(gè)人的話,并沒有告訴你是什么樣的人,或者他站在哪里,什么樣的姿勢,穿什么樣的衣服,然而大家仍然能很快地識(shí)別出這個(gè)人。
1996年的時(shí)候,Newl(音譯)教授學(xué)生證明出視覺認(rèn)知能力是人類大腦當(dāng)中最為了不起的能力,因?yàn)樗俣确浅?欤掖蟾攀?50微秒,在150微秒之內(nèi),我們的大腦能夠區(qū)別非常復(fù)雜的圖像。會(huì)把非常復(fù)雜的含動(dòng)物和不含動(dòng)物的圖像區(qū)別出來,那個(gè)時(shí)候計(jì)算機(jī)沒有接近人類的,這種工作激勵(lì)著計(jì)算機(jī)科學(xué)家,希望解決最為基本的問題就是圖像識(shí)別問題。
過了20年到現(xiàn)在,計(jì)算機(jī)領(lǐng)域和專家也在這個(gè)問題上發(fā)明了幾代技術(shù),這個(gè)就是我們所了解到的這些圖集,當(dāng)然也取得了非常大的進(jìn)展和進(jìn)步。這張圖表是給大家總結(jié)一下,在過去的幾年當(dāng)中,KUKA機(jī)器人示教器維修,在分類挑戰(zhàn)當(dāng)中一些標(biāo)志性的項(xiàng)目,橫軸是時(shí)間年份,左邊縱軸指的是分類錯(cuò)誤。我們能夠看到它的錯(cuò)誤是降低了10倍。8年的時(shí)間里錯(cuò)誤率就降低了十倍,所以這八年當(dāng)中經(jīng)歷了非常大的革命。
2012年的時(shí)候了解了GPU技術(shù),以及深度識(shí)別技術(shù),幫助世界了解在深層學(xué)習(xí)革命的一個(gè)發(fā)展,所以非常令人激動(dòng)的領(lǐng)域,尤其過去幾十年在人工智能的研究。作為科學(xué)家就會(huì)想一下在這個(gè)圖集之外,還可以做到什么。
通過一個(gè)例子告訴大家,兩張圖片,包括一個(gè)動(dòng)物和一個(gè)人,通過圖像識(shí)別來看這兩個(gè)圖非常相似,但是他們的故事卻是非常不同的,當(dāng)然你肯定不想在右邊的圖的場景當(dāng)中,我們在這就會(huì)出現(xiàn)一個(gè)非常重要的問題,就是人們能夠做的,這也是最為重要、最為基礎(chǔ)的一點(diǎn)圖像識(shí)別功能,就是識(shí)別圖像物體之間的關(guān)系,首先這個(gè)輸入是圖像本身,但是我們所輸出的信息包括物體的位置以及物體之間的關(guān)系。當(dāng)然這個(gè)領(lǐng)域有一些前期工作,但是絕大多數(shù)工作都是比較有限的。獲得數(shù)據(jù)和物體之間的關(guān)系信息比較有限。
最近我們的實(shí)驗(yàn)當(dāng)中做了這樣一項(xiàng)工作,開始新的研究,預(yù)測根據(jù)深度學(xué)習(xí),以及視覺化語言模式了解不同物體之間的關(guān)系。
這張圖的算法能夠預(yù)測不同物體之間的空間關(guān)系,進(jìn)行對(duì)比,了解這種對(duì)稱的關(guān)系,然后了解他們之間的動(dòng)作,以及他們的之間位置關(guān)系。所以這就是一個(gè)更為豐富的方法,了解我們的視覺世界,而不僅僅是一系列的物體名稱,這是我們所做出的一些量化研究。說明我們的工作在不斷地進(jìn)展和取得進(jìn)步的。
一年前的時(shí)候,我們知道這個(gè)領(lǐng)域發(fā)展非常快,就是關(guān)于計(jì)算機(jī)圖像識(shí)別方面。我們也知道有很多新的研究已經(jīng)超過了我們的研究成果。
我們可以看一下,在他們之間的關(guān)系是什么,而且在這個(gè)圖像當(dāng)中不同物體的關(guān)系,能夠讓我們?nèi)ジM(jìn)一步了解這個(gè)問題,就是在物體之間還會(huì)有什么樣的數(shù)據(jù)集。最開始我們知道有這個(gè)形象,非常有限的信息,比如這是一個(gè)物體,COCO進(jìn)一步學(xué)習(xí),提供一個(gè)標(biāo)簽,進(jìn)行短句子描述,視覺數(shù)據(jù)信息是非常復(fù)雜和非常多的,
根據(jù)途徑出來一些問答,經(jīng)過三年的研究,我們發(fā)現(xiàn)可以有更為豐富的方法來描述這些內(nèi)容,通過這些不同的標(biāo)簽,描述這些物體,包括他們的性質(zhì)、屬性以及關(guān)系,然后通過這樣的一個(gè)圖譜建立起他們之間的聯(lián)系?梢栽谶@看一下這個(gè)內(nèi)容。這樣一個(gè)數(shù)據(jù)庫當(dāng)中,包括上千個(gè)標(biāo)簽,工業(yè)機(jī)器人維修,包括屬性和關(guān)系,還有句子、問答信息,在我們這樣一個(gè)信息庫當(dāng)中,能夠非常精確地讓我們來進(jìn)行更加精確的研究,而不僅僅知道物體識(shí)別本身。
我們?nèi)绾蝸砣ナ褂眠@樣的圖表呢?我們做過的一個(gè)工作,就是我們看一下這個(gè)場景的搜索,大家無論在百度還是在Google搜索中,搜索過圖像或者圖集,比如可以輸入穿西裝的男性,可以展現(xiàn)出很多的圖,如果輸入可愛的小狗的話,有很多類似的圖會(huì)出現(xiàn),這一點(diǎn)非常好。同時(shí)看一下他們解決了什么問題呢?是否解決了圖像搜索的問題呢?我們輸入一個(gè)句子,男性穿著西裝,抱著可愛的小狗,瞬間結(jié)果不是特別好了。絕大多數(shù)搜索引擎的這種算法,在搜索圖像的時(shí)候,可能很多還是僅僅使用物體本身的信息,他們只是簡單地了解這個(gè)圖有什么物體,但是這是不夠的。
如果我想搜索一個(gè)坐在椅子上的男性的話,如果物體本身給我們一個(gè)人形象或者椅子形象再能加上更多的屬性,加上更多的信息,這個(gè)結(jié)果就會(huì)更好一些。