五月婷婷欧美视频_少女频道在线观看高清_欧美日韩视频一区二区三区_7777精品伊久久久大香线蕉语言

首頁 > 機(jī)器人資訊 > 機(jī)器學(xué)習(xí)模型初印象:一文區(qū)分什么是「過擬合」和「欠擬合」?

機(jī)器學(xué)習(xí)模型初印象:一文區(qū)分什么是「過擬合」和「欠擬合」?

日期:2019-04-22   人氣:  來源:互聯(lián)網(wǎng)
簡介:機(jī)器學(xué)習(xí)模型初印象:一文區(qū)分什么是「過擬合」和「欠擬合」? 在正式講這兩個(gè)概念之前我們先來看一個(gè)故事:假設(shè)你想要習(xí)英語但之前對(duì)英語一無所知,不過曾聽說過莎士比亞是一個(gè)位偉大的英國作家。你想要學(xué)英語的話,當(dāng)然是將自己泡在一個(gè)圖書館中,背誦他……

機(jī)器學(xué)習(xí)模型初印象:一文區(qū)分什么是「過擬合」和「欠擬合」?

在正式講這兩個(gè)概念之前我們先來看一個(gè)故事:假設(shè)你想要習(xí)英語但之前對(duì)英語一無所知,不過曾聽說過莎士比亞是一個(gè)位偉大的英國作家。你想要學(xué)英語的話,當(dāng)然是將自己泡在一個(gè)圖書館中,背誦他的相關(guān)作品,用他的作品學(xué)習(xí)英語。一年的學(xué)習(xí)結(jié)束后,你走出圖書館,來到了紐約,并向你看到的第一個(gè)人打了聲招呼:嗨,愿光明與你同在!那人用奇怪的眼光看著你,嘴里嘟囔著神經(jīng)病。你故作鎮(zhèn)定地又試了一遍:親愛的夫人,今天是何等的優(yōu)雅呢?你再次收獲了失敗,還把那個(gè)人嚇跑了。當(dāng)你三次嘗試都失敗后,你心煩意亂的說道:啊,此乃何等之遺憾,何等之悲傷!確實(shí)很遺憾,因?yàn)槟惴赶铝艘粋(gè)建模當(dāng)中最基礎(chǔ)的錯(cuò)誤之一:對(duì)訓(xùn)練集的過度擬合。

在數(shù)據(jù)科學(xué)學(xué)科中,過度擬合(overfit)模型被解釋為一個(gè)從訓(xùn)練集(trainingset)中得到了高方差(variance)和低偏差(bias),導(dǎo)致其在測(cè)試數(shù)據(jù)中得到低泛化(generalization)的模型。為了更好地理解這個(gè)復(fù)雜的定義,我們?cè)囍鴮⑺斫鉃槿L試學(xué)習(xí)英語的過程。我們要構(gòu)建的這一模型代表了如何用英語交流。把莎士比亞的所有作品作為訓(xùn)練數(shù)據(jù),把在紐約的對(duì)話作為測(cè)試集(testingset)。如果我們把社會(huì)認(rèn)可程度來衡量這一模型的表現(xiàn)的話,那么事實(shí)表明我們的模型將不能夠有效推廣到測(cè)試集上。但是,模型中的方差和偏差又是什么呢?

方差可以理解為為了響應(yīng)訓(xùn)練集時(shí)模型所產(chǎn)生的變化。若我們只是單純的去記憶訓(xùn)練集,我們的模型將具有高方差:它高度取決于訓(xùn)練集數(shù)據(jù)。如果我們讀的所有作品來自J.K.羅琳而不是莎士比亞,這個(gè)模型將變得完全不同。當(dāng)這樣一個(gè)具有高方差的模型應(yīng)用到一個(gè)新的測(cè)試集上時(shí),這個(gè)模型將無法獲得很好的表現(xiàn)。因?yàn)樵跊]有訓(xùn)練集數(shù)據(jù)的情況下模型將迷失方向。就好比一個(gè)學(xué)生只是單純復(fù)習(xí)了教科書上列出的問題,但這卻無法幫助他解決一些實(shí)際的問題。

偏差(bias),作為與方差相對(duì)的一個(gè)概念,表示了我們基于數(shù)據(jù)所做出的假設(shè)的強(qiáng)度(有效性)。在前文我們嘗試學(xué)習(xí)英語的例子中,我們基于一個(gè)沒有初始化的模型,并把作家的作品當(dāng)作學(xué)習(xí)語言的教科書。低偏差看似是一個(gè)正向的東西,因?yàn)槲覀兛赡軙?huì)有這樣的想法:我們并不需要去帶著傾向性思維看待我們的數(shù)據(jù)。然而我們卻需要對(duì)數(shù)據(jù)表達(dá)的完整性持懷疑態(tài)度。因?yàn)槿魏巫匀惶幚砹鞒潭紩?huì)生成噪點(diǎn),并且我們無法自信地保證我們的訓(xùn)練數(shù)據(jù)涵蓋了所有這些噪點(diǎn)。所以我們?cè)陂_始學(xué)習(xí)英語之前需要明白,我們無法通過死記硬背莎士比亞的名著來熟練掌握英語。

總體來說,偏差關(guān)系到數(shù)據(jù)被忽略的程度,而方差則關(guān)系到模型和數(shù)據(jù)的依賴程度。在所有的建模過程中,庫卡機(jī)器人,偏差和方差之間永遠(yuǎn)存在著一個(gè)權(quán)衡問題,并且需要我們針對(duì)實(shí)際情況找到一個(gè)最佳的平衡點(diǎn)。偏差和方差這兩個(gè)概念可應(yīng)用于任何從簡單到復(fù)雜的模型算法,對(duì)于數(shù)據(jù)科學(xué)家來說,它們至關(guān)重要。

剛才我們了解到了過度擬合的模型具有高方差、低偏差的特點(diǎn)。那么相反的情況:一個(gè)低方差、高偏差的模型又會(huì)是什么樣呢?這被稱作欠擬合。相較于之前與訓(xùn)練數(shù)據(jù)緊密貼合的模型,庫卡機(jī)器人,一個(gè)欠擬合模型忽視了從訓(xùn)練數(shù)據(jù)中獲得的信息,進(jìn)而使其無法找到輸入和輸出數(shù)據(jù)之間的內(nèi)在聯(lián)系。讓我們用之前嘗試學(xué)習(xí)英語的例子來解釋它,這一次我們?cè)囍?duì)之前我們用到的模型做出一些假設(shè),并且我們改成使用《老友記》全集作為這一次學(xué)習(xí)英語的訓(xùn)練數(shù)據(jù)。為了避免我們之前犯過的錯(cuò)誤,這次我們提前作出假設(shè):只有那些以最常用的詞--the,be,to,of,and,a為開頭的句子才是重要的。當(dāng)學(xué)習(xí)的時(shí)候,我們不去考慮別的句子,并且我們相信這能夠構(gòu)建更有效的模型。

經(jīng)過了漫長的訓(xùn)練后,我們又再一次站在了紐約的大街上。這一次,庫卡機(jī)器人驅(qū)動(dòng)器維修,我們的表現(xiàn)相對(duì)好了一點(diǎn)點(diǎn),但是別人依然無法聽懂我們,最后,我們還是以失敗告終。盡管我們學(xué)習(xí)到了一些英語知識(shí),并且能夠組織一些數(shù)量有限的句子,由于從訓(xùn)練數(shù)據(jù)上造成的高偏差,我們無法從中學(xué)到英語的基礎(chǔ)結(jié)構(gòu)和語法。雖然這個(gè)模型沒有受到高方差帶來的影響,但是相對(duì)于之前的嘗試來說,顯得又太矯枉過正,擬合不充分!

對(duì)數(shù)據(jù)的過度關(guān)注會(huì)導(dǎo)致過度擬合,對(duì)數(shù)據(jù)的忽視又會(huì)導(dǎo)致欠擬合,那么我們到底該怎么辦呢?一定有一個(gè)能找到最佳平衡點(diǎn)的辦法!值得慶幸的是,在數(shù)據(jù)科學(xué)中,有一個(gè)很好的解決方案,叫作驗(yàn)證(Validation)。用上面的例子來說,我們只使用了一個(gè)訓(xùn)練集和一個(gè)測(cè)試集。這意味著我們無法在實(shí)戰(zhàn)前知道我們的模型的好壞。最理想的情況是,我們能夠用一個(gè)模擬測(cè)試集去對(duì)模型進(jìn)行評(píng)估,并在真實(shí)測(cè)試之前對(duì)模型進(jìn)行改進(jìn)。這個(gè)模擬測(cè)試集被稱作驗(yàn)證集(validationset),是模型研發(fā)工作中非常關(guān)鍵的部分。

兩次失敗的英語學(xué)習(xí)過后,我們學(xué)聰明了,這一次我們決定使用一個(gè)測(cè)試集。我們這次同時(shí)使用Shakespeare的作品和《老友記》,因?yàn)槲覀儚倪^去的經(jīng)驗(yàn)中認(rèn)識(shí)到越多的數(shù)據(jù)總是能夠改善這個(gè)模型。不同的是,在這次訓(xùn)練結(jié)束以后,我們不直接走到街上,我們先找到一群朋友,每周和他們相聚,并以用英語來和他們交談的形式來評(píng)估我們的模型。剛開始的第一周,由于我們的英語水平還很差,我們很難融入到對(duì)話當(dāng)中。然而這一切僅僅是被模擬成一個(gè)驗(yàn)證集,每當(dāng)我們意識(shí)到錯(cuò)誤后,就能夠調(diào)整我們的模型。最后,當(dāng)我們能夠適應(yīng)并掌控與朋友們的對(duì)話練習(xí)時(shí),我們相信已經(jīng)是準(zhǔn)備好面對(duì)測(cè)試集的時(shí)候了。于是,我們?cè)僖淮未竽懙淖吡顺鋈ィ@一次我們成功了!我們非常適應(yīng)在真實(shí)的情況下和別人交談,這得益于一個(gè)非常關(guān)鍵的因素:驗(yàn)證集,是它改善并優(yōu)化了我們的模型。

英語學(xué)習(xí)只是一個(gè)相對(duì)簡易的例子。在眾多真實(shí)的數(shù)據(jù)科學(xué)模型中,考慮到在一個(gè)驗(yàn)證集上出現(xiàn)過度擬合的可能性,通常會(huì)使用到非常多的驗(yàn)證集!這樣的解決辦法稱之為交叉驗(yàn)證(corss-validation),這個(gè)方法要求我們將訓(xùn)練集拆分成多個(gè)不同的子集,或者在數(shù)據(jù)足夠多的條件下來使用多個(gè)驗(yàn)證集。交叉驗(yàn)證法這一個(gè)概念涵蓋著問題的方方面面。現(xiàn)在當(dāng)你碰到一個(gè)和過度擬合vs.欠擬合,偏差vs.方差這幾個(gè)概念有關(guān)的問題的時(shí)候,你腦海中將會(huì)浮現(xiàn)出一個(gè)概念框架,這個(gè)框架將有助于你去理解并且解決這個(gè)問題!

數(shù)據(jù)科學(xué)看似復(fù)雜,但它其實(shí)都是通過一系列基礎(chǔ)的模塊搭建而成的。其中的一些概念已經(jīng)在這篇文章中提到過,它們是:

過度擬合:過度依賴于訓(xùn)練數(shù)據(jù)

欠擬合:無法獲取訓(xùn)練數(shù)據(jù)中的存在的關(guān)系

高方差:一個(gè)模型基于訓(xùn)練數(shù)據(jù)產(chǎn)生了劇烈的變化

高偏差:一個(gè)忽視了訓(xùn)練數(shù)據(jù)的模型假設(shè)

過度擬合和欠擬合造成對(duì)測(cè)試集的低泛化性

使用驗(yàn)證集對(duì)模型進(jìn)行校正可以避免實(shí)際過程中造成的欠擬合和過度擬合

數(shù)據(jù)科學(xué)和其它科技領(lǐng)域其實(shí)與我們的日常生活息息相關(guān)。在一些與現(xiàn)實(shí)有關(guān)的例子的幫助下,我們可以很好地解釋并理解這些概念。一旦我們了解了一個(gè)框架,我們就能夠用技術(shù)來處理所有的細(xì)節(jié),從而解決難題。

免責(zé)聲明:本網(wǎng)部分文章和信息來源于互聯(lián)網(wǎng),本網(wǎng)轉(zhuǎn)載出于傳遞更多信息和學(xué)習(xí)之目的。如轉(zhuǎn)載稿涉及版權(quán)等問題,請(qǐng)立即聯(lián)系網(wǎng)站所有人,我們會(huì)予以更改或刪除相關(guān)文章,保證您的權(quán)利。
主站蜘蛛池模板: 冀州市| 林甸县| 阿巴嘎旗| 本溪| 松阳县| 华阴市| 云阳县| 民勤县| 宁晋县| 兴安县| 奉新县| 高青县| 射洪县| 安吉县| 赫章县| 封丘县| 喀喇沁旗| 东明县| 康定县| 社会| 会宁县| 峨眉山市| 鸡泽县| 军事| 镇远县| 绩溪县| 开原市| 南开区| 泸州市| 蓬莱市| 宾阳县| 上饶市| 文化| 龙陵县| 西畴县| 乌恰县| 河源市| 勃利县| 清流县| 成武县| 徐州市|