當(dāng)人工智能擁有好奇心,結(jié)果可能沒(méi)你想象的那么糟糕
好奇心,是人和人工智能最顯著的差異之一。從我們睜開(kāi)雙眼看這個(gè)世界開(kāi)始,我們就在努力的了解著周圍的一切,我們了解世界的方式很多樣;一開(kāi)始是試圖把所有東西放進(jìn)嘴巴里,KUKA機(jī)器人示教器維修,到后來(lái)我們走遍了這世界的每一個(gè)角落。
這也是生命中最美妙的東西,在滿足好奇心的過(guò)程中,我們獲得了快樂(lè)。人類了解一切,不是為了完成某一個(gè)目標(biāo),而僅僅是一種來(lái)自本能的沖動(dòng)。
可人工智能所做的,只有根據(jù)既定目標(biāo)進(jìn)行學(xué)習(xí)、搜索和計(jì)算。掃地機(jī)器人會(huì)探索周圍環(huán)境,可這不是因?yàn)楹闷妫菫榱私⒎块g中的SLAM以完成工作。這也是強(qiáng)人工智能不會(huì)出現(xiàn)的證據(jù)之一:人類自己都沒(méi)弄明白意識(shí)為何會(huì)存在,更沒(méi)法將本能加在人工智能頭上。
不過(guò)在現(xiàn)有技術(shù)下,我們能否讓人工智能做出類似好奇的行為呢?比如給予無(wú)意義的探索行為一些獎(jiǎng)勵(lì),或者是把探索行為和完成工作相結(jié)合進(jìn)行評(píng)分。
答案是可以。
好奇心幫助人工智能成為更棒的水管工
還記得我們第一次玩超級(jí)瑪麗的時(shí)候嗎?或許我們中很多人玩的都是小霸王學(xué)習(xí)機(jī)里的超級(jí)瑪麗式英語(yǔ)學(xué)習(xí)軟件。不管是什么,進(jìn)入游戲的第一時(shí)間,我們通常都是試一試手柄上的每一個(gè)按鍵是做什么的,然后跳來(lái)跳去,嘗試觸碰游戲里的每一個(gè)小方塊。這就是好奇心最基本的表現(xiàn)。
那么人工智能在玩超級(jí)瑪麗時(shí)是怎樣的呢?通常情況下是應(yīng)用了增強(qiáng)學(xué)習(xí)算法,用正負(fù)反饋機(jī)制幫助人工智能快速通關(guān)。踩死一只烏龜,獲得正向反饋,掉入懸崖,獲得反向反饋。問(wèn)題時(shí),只要能夠繼續(xù)過(guò)關(guān),人工智能很難學(xué)會(huì)新的動(dòng)作,這也就造成了遇到新的關(guān)卡時(shí),人工智能常常需要耗費(fèi)很大力氣才能通過(guò)。
在一篇關(guān)于人工智能好奇心的論文中提到,人工智能利用傳統(tǒng)的增強(qiáng)學(xué)習(xí)方法訓(xùn)練,在超級(jí)瑪麗的游戲過(guò)程中,人工智能卡在了游戲的30%處,因?yàn)槿斯ぶ悄苄枰竭^(guò)一個(gè)坑,而想要越過(guò)那個(gè)坑,需要15到20個(gè)特定順序的按鍵操作。由于在墜落進(jìn)坑里時(shí)已經(jīng)獲得了反向反饋,人工智能常常在坑的位置止步不前。
上述論文的作者,來(lái)自UCBerkeley的研究團(tuán)隊(duì)提出了一種新的思路,庫(kù)卡機(jī)器人,為人工智能加入了內(nèi)部好奇心構(gòu)型。以自監(jiān)督的方式,預(yù)測(cè)自身行動(dòng)會(huì)造成何種結(jié)果,并將這種算法稱作自監(jiān)督預(yù)測(cè)算法。
當(dāng)外部反饋減少時(shí),內(nèi)部好奇心構(gòu)型會(huì)激勵(lì)人工智能通過(guò)探索環(huán)境去檢驗(yàn)自我對(duì)于行動(dòng)的預(yù)測(cè)。結(jié)果是,采取內(nèi)部好奇心構(gòu)型的人工智能不會(huì)盲目重復(fù)那些有正向反饋的動(dòng)作,而是開(kāi)始了解游戲環(huán)境,把握整體游戲進(jìn)程。最終戰(zhàn)勝了那個(gè)坑。
好奇心不僅會(huì)害死貓,還會(huì)讓人工智能得多動(dòng)癥
接下來(lái),在DeepMind計(jì)算機(jī)科學(xué)家Hester和德州大學(xué)奧斯汀分校的PeterStone的研究中,同樣的概念被進(jìn)一步的具象化。
在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,他們開(kāi)發(fā)了一種名為TEXPLORE-VANIR的算法。和自監(jiān)督預(yù)測(cè)算法不同的是,TEXPLORE-VANIR為人工智能設(shè)立了內(nèi)部獎(jiǎng)勵(lì)機(jī)制,當(dāng)人工智能探索環(huán)境時(shí),即使這種行為對(duì)達(dá)到最終目標(biāo)沒(méi)有好處,人工智能也會(huì)因?yàn)闇p少了外部環(huán)境的未知性而獲得來(lái)自內(nèi)部的正向反饋。同時(shí),在探索環(huán)境中發(fā)現(xiàn)了新事物時(shí),人工智能也會(huì)獲得正向反饋。
這么聽(tīng)起來(lái),是不是很人類的好奇心非常相像了?
并且TEXPLORE-VANIR也讓人工智能的好奇心不再止步于游戲中。在關(guān)于機(jī)器人工作的實(shí)驗(yàn)中,面臨多項(xiàng)工作安排,TEXPLORE-VANIR算法能讓機(jī)器人表現(xiàn)更好。原因是面臨多項(xiàng)工作時(shí),普通深度學(xué)習(xí)算法會(huì)讓機(jī)器人不斷重復(fù)某一項(xiàng)工作中的動(dòng)作,因?yàn)闄C(jī)器人曾經(jīng)在完成這一項(xiàng)工作時(shí)獲得過(guò)正向反饋,當(dāng)其他工作出現(xiàn)時(shí),它還是會(huì)重復(fù)那些讓自己獲得過(guò)正向反饋的動(dòng)作。這樣一來(lái),就會(huì)浪費(fèi)很多時(shí)間。
當(dāng)人類表現(xiàn)出過(guò)度好奇時(shí),會(huì)有怎樣的結(jié)果?最常見(jiàn)的,注意力無(wú)法集中,常常將手頭的工作半途而廢。同樣,人工智能擁有好奇心后也會(huì)有同樣的表現(xiàn)。搭載TEXPLORE-VANIR算法的機(jī)器人在一項(xiàng)給門開(kāi)鎖的任務(wù)上表現(xiàn)較差,就是常常因?yàn)楹闷娑ヌ剿鳝h(huán)境,導(dǎo)致任務(wù)完成的延遲。甚至有學(xué)者稱,這是人工智能的多動(dòng)癥。
這樣看來(lái),如何平衡內(nèi)部和外部的反饋將是如何讓人工智能好奇心發(fā)揮作用的最大問(wèn)題。
沒(méi)有好奇心的人工智能只是機(jī)器?
我們更關(guān)心的是,讓人工智能擁有好奇心這件事究竟有什么用?是為了他們?cè)谟螒蛑懈玫拇驍∥覀儯窟是讓他們?cè)趫?zhí)行任務(wù)時(shí)分心而變得低效?或者說(shuō)讓他們更接近人類,可以更好的打敗我們?
(電影超能查派中的人工智能自己研發(fā)出了如何轉(zhuǎn)移意識(shí),超越了電影中人類現(xiàn)有的科技水平)
首先,好奇心會(huì)讓人工智能在學(xué)習(xí)時(shí)更加高效。減少對(duì)外部環(huán)境反饋的依賴,意味著對(duì)已有數(shù)據(jù)的利用率更高。比如在機(jī)械手臂試圖抓起物品時(shí),常常是把可能抓起物品姿勢(shì)都嘗試一遍,直到把物品抓起來(lái)。對(duì)于人來(lái)說(shuō),這是根本不能接受的低效,可換到了一個(gè)充著電的機(jī)器上,似乎就沒(méi)人在意了。可笑的是,人工智能本應(yīng)該替人類完成重復(fù)勞作的工作,結(jié)果卻是用更多的人工智能重復(fù)勞作,代替人類的重復(fù)勞作。可有了好奇心,人工智能可以先對(duì)環(huán)境、環(huán)境中的物體進(jìn)行初步的了解,然后再加以行動(dòng),而不是無(wú)腦的用暴力窮舉解決問(wèn)題。
其次,好奇心可以讓人工智能更好的適應(yīng)現(xiàn)實(shí)應(yīng)用環(huán)境,畢竟現(xiàn)實(shí)和游戲或者實(shí)驗(yàn)不一樣,沒(méi)人會(huì)為人工智能的每個(gè)動(dòng)作打分。當(dāng)缺少外部環(huán)境反饋時(shí),庫(kù)卡機(jī)器人,好奇心驅(qū)使的內(nèi)部反饋就可以發(fā)揮很大作用。只有可以自我驅(qū)動(dòng)的AI,才能在真正意義上幫助到人類,發(fā)現(xiàn)那些我們?cè)谠O(shè)立目標(biāo)時(shí)沒(méi)有發(fā)現(xiàn)的事,而不是像所有機(jī)器一樣根據(jù)指令行動(dòng)。
看到這里,是不是加重了對(duì)人工智能的恐懼?別擔(dān)心,大多數(shù)有關(guān)好奇心的算法目前還都停留在實(shí)驗(yàn)階段,一是上文提過(guò)的,由于無(wú)法平衡內(nèi)部反饋和外部反饋,好奇心常常會(huì)降低人工智能的工作效率。畢竟100%的專注,是所有機(jī)器的優(yōu)勢(shì)。第二則是,傳統(tǒng)深度學(xué)習(xí)的蘿卜加大棒政策已經(jīng)能滿足當(dāng)下很多人工智能的應(yīng)用。暴力窮舉雖然低效,但是十分有效。
但我們相信,不管以何種形式,未來(lái)的人工智能一定會(huì)出現(xiàn)類似好奇心的機(jī)制,在更了解這個(gè)世界的前提下,更好的服務(wù)人類。