五月婷婷欧美视频_少女频道在线观看高清_欧美日韩视频一区二区三区_7777精品伊久久久大香线蕉语言

機(jī)器人資訊
  1. 中國(guó)制造2025前瞻:無人機(jī)的未來(二)
  2. 【重磅】人工智能書寫醫(yī)療健康產(chǎn)業(yè)新篇章(下)
  3. 人工智能書寫醫(yī)療機(jī)器人產(chǎn)業(yè)新篇章
  4. 牛!市一院參與研發(fā)“國(guó)之重器”骨科手術(shù)機(jī)器人
  5. 機(jī)器人胰腺手術(shù)全球直播
技術(shù)教程
示教器維修
伺服電機(jī)維修
首頁(yè) > 機(jī)器人資訊 > 運(yùn)用深度學(xué)習(xí)教機(jī)器人理解自然語言

運(yùn)用深度學(xué)習(xí)教機(jī)器人理解自然語言

日期:2018-10-29   人氣:  來源:互聯(lián)網(wǎng)
簡(jiǎn)介:在深度學(xué)習(xí)出現(xiàn)之前,文字所包含的意思是通過人為設(shè)計(jì)的符號(hào)和結(jié)構(gòu)傳達(dá)給計(jì)算機(jī)的。本文討論了深度學(xué)習(xí)如何用向量來表示語義,如何更靈活地表示向量,如何用向量編碼的語義去完成翻譯,以及有待改進(jìn)的地方。 在深度學(xué)習(xí)出現(xiàn)之前,我們書寫的文字所包含的意……

在深度學(xué)習(xí)出現(xiàn)之前,文字所包含的意思是通過人為設(shè)計(jì)的符號(hào)和結(jié)構(gòu)傳達(dá)給計(jì)算機(jī)的。本文討論了深度學(xué)習(xí)如何用向量來表示語義,如何更靈活地表示向量,如何用向量編碼的語義去完成翻譯,以及有待改進(jìn)的地方。

在深度學(xué)習(xí)出現(xiàn)之前,我們書寫的文字所包含的意思是通過人為設(shè)計(jì)的符號(hào)和結(jié)構(gòu)傳達(dá)給計(jì)算機(jī)的。其符號(hào)方法包括WordNet、ConceptNet和FrameNet,通過對(duì)比來更好地理解深度學(xué)習(xí)的能力。然后我會(huì)討論深度學(xué)習(xí)如何用向量來表示語義,以及如何更靈活地表示向量。接著我將探討如何用向量編碼的語義去完成翻譯,甚至為圖片添加描述和用文字回答問題。最后,庫(kù)卡機(jī)器人,總結(jié)了用深度學(xué)習(xí)技術(shù)真正地理解人類語言還需要哪些改進(jìn)。

WordNet可能是最著名的象征意義的語料庫(kù),由普林斯頓大學(xué)研發(fā)。它將意思相近的單詞歸為一組,并且表示組與組之間的層次聯(lián)系。舉個(gè)例子,它認(rèn)為轎車和汽車指的是同一個(gè)物體,都是屬于一類交通工具。

ConceptNet是來自麻省理工學(xué)院的語義網(wǎng)絡(luò)。它表示的關(guān)系比WordNet更廣。例如,ConceptNet認(rèn)為面包一詞往往出現(xiàn)在烤面包機(jī)附近。然而,詞語間的這種關(guān)系實(shí)在是不勝枚舉。理想情況下,我們會(huì)說面包機(jī)不能被叉子插入。

FrameNet是伯克利大學(xué)的一個(gè)項(xiàng)目,它試圖用框架對(duì)語義歸檔。框架表示各種概念及其相關(guān)的角色。例如,孩子生日聚會(huì)框架的不同部分有著不同的角色,比如場(chǎng)地、娛樂活動(dòng)和糖源。另一個(gè)框架是購(gòu)買這個(gè)行為,包括賣方、買方和交易商品。計(jì)算機(jī)能夠通過搜索觸發(fā)框架的關(guān)鍵詞來理解文字。這些框架需要手動(dòng)創(chuàng)建,它們的觸發(fā)詞也需要手動(dòng)關(guān)聯(lián)。我們可以用這種方式來表示大量知識(shí),但是很難一五一十地明確寫出來。因?yàn)閮?nèi)容實(shí)在太多,完完全全寫出來也太費(fèi)神了。

符號(hào)也可以用來創(chuàng)建語言模型,計(jì)算某個(gè)單詞將會(huì)出現(xiàn)在句子中的概率。舉個(gè)例子,假設(shè)我剛剛寫下我吃了,那么下一個(gè)詞語是慶豐包子的概率,可以用語料庫(kù)中我吃了慶豐包子出現(xiàn)的次數(shù)除以我吃了出現(xiàn)的次數(shù)來計(jì)算。此類模型相當(dāng)有用,但我們知道慶豐包子與狗不理包子非常相似,至少比電飯鍋相似,但是模型并沒有利用這種相似性的優(yōu)勢(shì)。使用的詞語有千千萬萬,若是存儲(chǔ)所有三詞短語需消耗(詞語數(shù)量x詞語數(shù)量x詞語數(shù)量)存儲(chǔ)空間,這也是使用符號(hào)所帶來的問題,因?yàn)樵~語以及詞語的組合實(shí)在太多。所以,我們需要一種更好的方式。

使用向量表示語義

深度學(xué)習(xí)使用向量來表示語義,因此概念不再是由一個(gè)龐大的符號(hào)來表示,而是由特征值表示的一個(gè)向量來表示。向量的每個(gè)索引代表神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的一個(gè)特征,向量的長(zhǎng)度一般在300左右。這是一種更加有效的概念表示方法,因?yàn)檫@里的概念是由特征組成的。兩個(gè)符號(hào)只有相同或者不同兩種情況,而兩個(gè)向量可以用相似性來衡量。慶豐包子對(duì)應(yīng)的向量與狗不理包子對(duì)應(yīng)的向量很接近,但是它們和轎車對(duì)應(yīng)的向量差別很大。如同WordNet處理方式一樣,相似的向量被歸為同一類。

向量還存在內(nèi)部結(jié)構(gòu)。如果你用意大利向量減去羅馬向量,得到的結(jié)果應(yīng)該與法國(guó)向量減去巴黎向量的結(jié)果非常接近。我們可以用一個(gè)等式來表示:

意大利-羅馬=法國(guó)-巴黎

另一個(gè)例子是:

國(guó)王-皇后=男人-女人

我們通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)每個(gè)詞語附近的詞語,得到帶有這些屬性的向量。你可以從谷歌或者是斯坦福直接下載已經(jīng)訓(xùn)練好的向量,或是用Gensim軟件庫(kù)自己訓(xùn)練。令人驚訝的是這種方法竟然有效,而且詞向量有如此直觀的相似性和聯(lián)系,但事實(shí)上確實(shí)是有效。

由詞向量構(gòu)成語義

我們已經(jīng)有了原來表示單個(gè)詞語的向量,該如何用這些詞表示語義,甚至形成完整的句子呢?我們使用一種稱為遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,RNN)的技術(shù),如下圖所示。用RNN把句子Thewomanatetacos.編碼為向量,記作h4。單詞the的詞向量記作h0,然后RNN把h0與表示woman的詞向量結(jié)合,生成新的向量h1。然后向量h1繼續(xù)與下一個(gè)單詞ate的詞向量結(jié)合,生成新的向量h2,以此類推,直到向量h4。向量h4則表示了完整的句子。

一旦信息被編碼為一個(gè)向量,我們就能將其解碼為另一種形式,如下圖所示。比如,RNN隨后可以將向量h4表示的句子翻譯(解碼)成西班牙語。它先根據(jù)已有向量h4生成一個(gè)最有可能的單詞。向量h4與新生成的單詞La一起又產(chǎn)生了向量h5。在向量h5的基礎(chǔ)上,RNN推出下一個(gè)最有可能出現(xiàn)的單詞,mujer。重復(fù)進(jìn)行這個(gè)過程直到產(chǎn)生句號(hào),網(wǎng)絡(luò)結(jié)構(gòu)也到此為止。

使用這種編碼器解碼器模型來做語言轉(zhuǎn)換,需要用一個(gè)包含大量源語言與目標(biāo)語言的語料庫(kù),基于這個(gè)語料庫(kù)訓(xùn)練RNN網(wǎng)絡(luò)。這些RNN通常含有非常復(fù)雜的內(nèi)部節(jié)點(diǎn),整個(gè)模型往往有幾百萬個(gè)參數(shù)需要學(xué)習(xí)。

我們可以將解碼的結(jié)果以任何形式輸出,例如解析樹(parsetree),或是圖像的描述,假設(shè)有足夠多包含描述的圖像素材。當(dāng)給圖片添加描述時(shí),你可以用圖片訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來識(shí)別圖像中的物體。然后,把神經(jīng)網(wǎng)絡(luò)輸出層的權(quán)重值作為這幅圖像的向量表示,再將這個(gè)向量用解碼器解析出圖像的描述。

從合成語義到關(guān)注、記憶和問答

剛才的編碼器解碼器方法似乎像是小把戲,我們接著就慢慢的來看看其在實(shí)際場(chǎng)景的應(yīng)用。我們可以把解碼的過程想象成回答問題,這句話該怎么翻譯?或者,已經(jīng)有了待翻譯的句子,并且一部分內(nèi)容已經(jīng)翻譯了,那么接下去該怎么寫?

為了回答這些問題,算法首先需要記住一些狀態(tài)。在之前提到的例子中,系統(tǒng)只記住當(dāng)前向量狀態(tài)h以及最后寫下的單詞。若是我們想讓它能運(yùn)用之前全部所見所學(xué)該怎么辦?在機(jī)器翻譯的例子里,這就意味著在選擇下一個(gè)單詞時(shí),要能夠回溯之前的狀態(tài)向量h0、h1、h2和h3。創(chuàng)造了能滿足這種需求的網(wǎng)絡(luò)結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)如何在每個(gè)決策點(diǎn)確定之前哪個(gè)記憶狀態(tài)是最相關(guān)的。我們可以認(rèn)為這是一個(gè)關(guān)注記憶的焦點(diǎn)。

它的意義在于,由于我們可以將概念和語句編碼為向量,并且我們可以使用大量的向量作為記憶元素,通過搜索能找到問題的最佳答案,那么深度學(xué)習(xí)技術(shù)就能用文字來回答問題了。舉一個(gè)最簡(jiǎn)單的例子,用表示問題的向量與表示記憶的向量做內(nèi)積運(yùn)算,把最吻合的結(jié)果作為問題的最佳回答。另一種方法是把問題和事實(shí)用多層神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,并把最后一層輸出傳給一個(gè)函數(shù),函數(shù)的輸出即為答案。這些方法都是基于模擬問答的數(shù)據(jù)來訓(xùn)練,然后用下文Weston所示的方法回答問題。

下一個(gè)前沿方向是準(zhǔn)確理解語義

剛剛討論的方法是關(guān)于如何以讀故事的方式回答問題,但是故事的一些重要情節(jié)一目了然,我們不必都寫下來。設(shè)想桌上放著一本書。計(jì)算機(jī)如何才能知道你挪動(dòng)桌子的同時(shí)也挪動(dòng)了書本?同樣的,計(jì)算機(jī)怎么知道屋外只是下雨了呢?就如MarvinMinsky所問,計(jì)算機(jī)如何知道你能用一根繩索拉箱子而不是推箱子呢?因?yàn)檫@些事實(shí)我們不會(huì)都寫下來,故事將只限于能被我們算法所表示的知識(shí)。為了獲取這部分知識(shí),我們的機(jī)器人(robot)將通過實(shí)景體驗(yàn)或者模擬體驗(yàn)來學(xué)習(xí)。

免責(zé)聲明:本網(wǎng)部分文章和信息來源于互聯(lián)網(wǎng),本網(wǎng)轉(zhuǎn)載出于傳遞更多信息和學(xué)習(xí)之目的。如轉(zhuǎn)載稿涉及版權(quán)等問題,請(qǐng)立即聯(lián)系網(wǎng)站所有人,我們會(huì)予以更改或刪除相關(guān)文章,保證您的權(quán)利。
主站蜘蛛池模板: 台中市| 通州区| 永州市| 滦南县| 廉江市| 济源市| 东阿县| 霍林郭勒市| 即墨市| 宜宾市| 马山县| 安庆市| 台南县| 荣成市| 诸城市| 蛟河市| 冕宁县| 阿克苏市| 西吉县| 旌德县| 含山县| 游戏| 阜康市| 北京市| 蒲城县| 多伦县| 明溪县| 泽普县| 凤庆县| 来宾市| 游戏| 大悟县| 平定县| 修武县| 澜沧| 华宁县| 壶关县| 定西市| 海淀区| 大化| 临泽县|