首先,你知道自己想要預(yù)測或檢測什么嗎?你有足夠的數(shù)據(jù)進(jìn)行分析以建立預(yù)測模型嗎?你有定義模型和訓(xùn)練模型所需的人員和工具嗎?你已經(jīng)有了統(tǒng)計或物理模型來作為一個預(yù)測基準(zhǔn)嗎?
這篇文章對你的人工智能和機(jī)器學(xué)習(xí)項目進(jìn)行分解,討論其各個部分所帶來的影響,從而幫助你確定公司是否真正準(zhǔn)備需要利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)或人工智能。
你擁有大量的數(shù)據(jù)
足夠的相關(guān)數(shù)據(jù)是預(yù)測和特征識別的必要條件。有了它,你可能會成功;沒有它,則注定失敗。那么你需要多少數(shù)據(jù)呢?你嘗試納入模型的因素越多,所需要的數(shù)據(jù)就越多,無論你是在做普通的統(tǒng)計預(yù)測、機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)。
以銷售預(yù)測中常見的問題為例,比如,為了避免延遲交貨,且不會占用太多金錢和現(xiàn)貨貨架空間,那么你下個月將在邁阿密出售多少海軍藍(lán)短袖襯衫?以及你需要在邁阿密店和亞特蘭大倉庫中儲備多少存活?零售是強(qiáng)季節(jié)性行業(yè),所以你需要從多年的歷史數(shù)據(jù)中總結(jié)出有統(tǒng)計學(xué)意義的月度數(shù)據(jù),從而修正月度銷量波動,并建立一個年化趨勢這還只是一個標(biāo)準(zhǔn)的時間序列分析。機(jī)器學(xué)習(xí)比統(tǒng)計模型需要更多的數(shù)據(jù),而深度學(xué)習(xí)模型是它的好幾倍。
統(tǒng)計模型會分析你的全國連鎖店在5+年間的襯衫月銷量,并使用這一數(shù)據(jù)來預(yù)測下個月的襯衫銷量,可能有幾十萬(假設(shè)是30萬)。然后你可以預(yù)測邁阿密的襯衫銷量占全國銷量的百分比(假設(shè)是3%),并單獨預(yù)測出藍(lán)色短袖上衣銷量所占襯衫性銷量的百分比(假設(shè)是1%)。該模型會指出,下個月藍(lán)色短袖襯衫總銷量的90%左右將售于邁阿密。你可以通過對比不同產(chǎn)品的年度同店銷量來核實預(yù)測結(jié)果,同時分析它們之間的差異程度。
現(xiàn)在,假設(shè)你想要考慮一些外部因素,比如天氣和流行趨勢。短袖襯衫在熱天或晴天時是不是比陰雨天時賣的更好?可能如此。你可以將歷史氣象數(shù)據(jù)納入到你的模型中來做預(yù)測,雖然這樣做有點笨拙,因為你需要做一個時間序列的統(tǒng)計模型,所以你可能會決定使用回歸森林,順便再試試其它7種回歸機(jī)器學(xué)習(xí)模型,然后將每個模型測得的「cost」(一個歸一化誤差函數(shù))與去年的實際結(jié)果相比較,從而找到最佳模型。
相比于去年同時段的海軍藍(lán)襯衫銷量,下個月會更好還是更差?你可以看看海軍藍(lán)服裝所有的月度銷量,并預(yù)測出年度流行趨勢,然后將其納入到你的機(jī)器學(xué)習(xí)模型中。或者你可能需要來自時尚媒體方面的信息對模型進(jìn)行手動校正。(「為以防萬一,假設(shè)下月銷量會提高20%。」)
也許你想建立一個深度神經(jīng)網(wǎng)絡(luò)來完善這個模型。你可能會發(fā)現(xiàn),每添加一個隱藏層,就可以將回歸誤差提高幾個百分點,直到某一時刻,再添加隱藏層也無濟(jì)于事,此后收益遞減。這種情況可能是因為模式中沒有更多的特征可供識別,或者更可能的原因是,已經(jīng)沒有足夠多的數(shù)據(jù)來支持模型的深入改進(jìn)。
你有足夠的數(shù)據(jù)科學(xué)家
可能你已經(jīng)注意到,單個人需要獨自建立上面討論的所有模型。其實不是這樣,建模型不僅僅是把數(shù)據(jù)倒在漏斗中然后按個按鈕這么簡單。不管你使用哪種工具盡管供應(yīng)商可能對此會有要求,它需要經(jīng)驗、直覺、編程能力和良好的統(tǒng)計學(xué)背景,這樣才能輕松駕馭機(jī)器學(xué)習(xí),從而實現(xiàn)你的想法。
尤其是某些廠商往往聲稱,「任何人」或「任何業(yè)務(wù)角色」都可以使用商家預(yù)先訓(xùn)練過、可應(yīng)用的機(jī)器學(xué)習(xí)模型。如果該模型正好可以解決手頭的問題,這話不假,庫卡機(jī)器人何服電機(jī)維修,比如將正式的魁北克法語文本翻譯為英語,但更常見的情況是,現(xiàn)有的訓(xùn)練過的機(jī)器學(xué)習(xí)模型并不適用于你的數(shù)據(jù)。既然你已經(jīng)訓(xùn)練了模型,你就需要數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來指導(dǎo)訓(xùn)練,這更像是一門藝術(shù),而非工程或科學(xué)。
在招聘數(shù)據(jù)科學(xué)家時,最奇怪的事情之一就是對工作崗位的要求,尤其是與受聘者的實際技能相比。廣告上經(jīng)常說「招聘:數(shù)據(jù)科學(xué)家。STEM博士。20年經(jīng)驗。」第一個怪事是,該領(lǐng)域的發(fā)展歷程還未足20年。第二件怪事是,公司雇傭26歲的碩士畢業(yè)生也即除學(xué)術(shù)界外沒有任何工作經(jīng)驗,與20年經(jīng)驗的要求相去甚遠(yuǎn)偏好那些已經(jīng)有相關(guān)經(jīng)驗的人,因為他們擔(dān)心高級人員太貴,盡管他們的要求是20年工作經(jīng)驗。是的,這很虛偽,且十之八九是非法的年齡歧視,但現(xiàn)實情況就是這個樣子。
你跟蹤或獲得那些重要的因素
即使你有大量的數(shù)據(jù)和很多數(shù)據(jù)科學(xué)家,你也可能無法擁有包含所有相關(guān)變量的數(shù)據(jù)。以數(shù)據(jù)庫術(shù)語的話說,你可能有大量的行,但缺少一些列。統(tǒng)計學(xué)上來說就是,你可能有無法解釋的方差。
一些獨立變量的測量(比如天氣觀測)很容易獲得并被合并到數(shù)據(jù)集中,甚至可在事后被合并。其它一些變量的測量或獲取過程可能較為困難,比如不切實際或成本高昂,即使你知道這些變量是什么。
舉一個化學(xué)領(lǐng)域的例子。當(dāng)你在銅上鍍鉛時,你可以測量氟硼酸鍍液的溫度和濃度,并記錄陽極電壓,但如果溶中沒有適宜數(shù)量的肽鏈,那么你就不會得到很好的結(jié)果。如果你沒有稱量放入溶液中的肽鏈,就無法知道這種關(guān)鍵催化劑的劑量,那么你將無法使用其它變量來解釋電鍍質(zhì)量的變化。
你有清理和轉(zhuǎn)換數(shù)據(jù)的方法
數(shù)據(jù)幾乎總是那么嘈雜。測量過程可能會丟失一個或多個值;單個值可能會超出范圍,或與同一計量過程中的其它值不相稱;電子測量可能由于電噪聲而變得不準(zhǔn)確;回答問題的人可能并不理解問題本身,或是編造答案;諸如此類。
在任何分析過程中,工業(yè)機(jī)器人維修,數(shù)據(jù)過濾步驟通常需要消耗最多設(shè)置時間是根據(jù)我的經(jīng)驗,它占到總分析時間的80%到90%。有些公司在它們的ETL(提取、轉(zhuǎn)換和加載)過程中清理數(shù)據(jù),這樣分析師應(yīng)該永遠(yuǎn)都看到不良數(shù)據(jù)點了,而其它公司則將數(shù)據(jù)與ETL(以及最后一步的轉(zhuǎn)換步驟)過程放在數(shù)據(jù)倉庫或數(shù)據(jù)湖中。這意味著,即使是最容易過濾掉的臟數(shù)據(jù)也會被保存下來,理論上,過濾器和轉(zhuǎn)換步驟需要隨著時間的推移而進(jìn)行改進(jìn)。
即使是過濾后的精確數(shù)據(jù)可能也需要在分析前做進(jìn)一步的轉(zhuǎn)換。與統(tǒng)計學(xué)方法一樣,只有當(dāng)每種可能的狀態(tài)都有相似的行數(shù)時,機(jī)器學(xué)習(xí)模型的效果才最好,這意味著,那些最受歡迎的狀態(tài)數(shù)可能會由于隨機(jī)抽樣而減少;同樣,當(dāng)所有變量的范圍都被標(biāo)準(zhǔn)化后,機(jī)器學(xué)習(xí)模型才能達(dá)到最佳效果。
例如在微軟的一篇博文中,微軟小娜分析了特朗普和克林頓的競選捐款,說明了準(zhǔn)備機(jī)器學(xué)習(xí)數(shù)據(jù)集的方式:創(chuàng)建標(biāo)簽、處理數(shù)據(jù)、設(shè)計附加功能以及清洗數(shù)據(jù)。這種分析用SQL和R語言做了幾個轉(zhuǎn)換,以確定與克林頓或特朗普相關(guān)的各種委員會和競選資金,并基于捐贈者的姓名來確定他們的性別,以及糾正拼寫錯誤,并修復(fù)類之間的不平衡性(數(shù)據(jù)集中有94%都是克林頓的捐款,且大部分是小額捐款)。
你已經(jīng)對數(shù)據(jù)做了統(tǒng)計分析
在分析數(shù)據(jù)和解決問題時,最應(yīng)該避免的就是一個勁地往前沖。在你能夠弄清楚發(fā)生的事情及其原因之前,你需要退后一步,看一看所有的變量及其相互之間的關(guān)系。




