五月婷婷欧美视频_少女频道在线观看高清_欧美日韩视频一区二区三区_7777精品伊久久久大香线蕉语言

首頁 > 機器人資訊 > AI需求層次論——人工智能應該怎么用?

AI需求層次論——人工智能應該怎么用?

日期:2019-03-01   人氣:  來源:互聯網
簡介:AI需求層次論——人工智能應該怎么用? 人工智能和機器學習最近被炒作得非常厲害。但是這個東西不是開箱即用,需要打下堅實的基礎才能應用。數據科學顧問,前Jawbone數據副總裁及LinkedIn數據科學家MonicaRogati對此提出了各個組織應用AI的需求層次論。指……

AI需求層次論——人工智能應該怎么用?

人工智能和機器學習最近被炒作得非常厲害。但是這個東西不是開箱即用,需要打下堅實的基礎才能應用。數據科學顧問,前Jawbone數據副總裁及LinkedIn數據科學家MonicaRogati對此提出了各個組織應用AI的需求層次論。指出先要解決了數據素養、數據采集和基礎設施這些基本需求之后才能去考慮AI這個頂層的自我實現需求。

就像發展迅速的技術一樣,AI也激發了大規模的FOMO(害怕錯過)、FUD(恐、惑、疑)和不和。其中一些是應該的,也有一些不是但這個行業正在留意。從秘密的硬件初創企業到金融技術巨頭乃至于上市公司,各個團隊都在忙碌地實施自己的AI戰略。這一切都歸結到一個關鍵且高風險的問題:我們會怎么使用AI和機器學習來讓我們做的事情變得更好?

通常公司都還沒有為AI做好準備。也許他們招聘了自己的第一位數據科學家但卻達不到想要的效果,或者也許數據素養并不是他們文化的核心。但最常見的情形是透明還沒有建立起基礎而設施去實施最基本的數據科學算法和操作,更不用說機器學習了。

作為數據科學/AI顧問,我必須無數次地傳達這一信息,過去2年尤其如此。其他人也表示同意。在大家都對你所在的領域充滿著興奮之情是做一個潑冷水的人是很困難的,尤其是如果你也分享著這種興奮時。還有你應該怎么去告訴那些公司,說如果沒有(或者成為)精英也就是自我任命的看門人的話是不可能為AI做好準備的呢?

這里是一個引起大家最多共鳴的一個解釋:

可以把AI看作是需求金字塔的頂端。是的,自我實現(AI)是非常棒的,但你首先需要食物、水和庇護所(數據素養、數據采集和基礎設施)。

你的數據需要有牢靠的基礎,然后才可以高效地運用AI和機器學習。

基本需求:你能算嗎?

金字塔的底部是數據采集。你需要什么樣的數據?你又有什么樣的數據?如果是面向用戶的產品,你有沒有記錄所有相關的用戶交互?如果產品是傳感器,庫卡機器人何服電機維修,數據是從哪兒來的,怎么來?記錄一種尚未物聯化的交互有多容易?畢竟,擁有合適的數據集是機器學習最近能取得進展的關鍵。

其次,要弄清楚數據流是如何流經系統的?你有沒有可靠的數據流處理系統或者ETL(提取轉換加載)?數據存放在哪里?訪問和分析這些數據有多容易?JayKreps一直都在說(有10年的時間了)可靠的數據流是任何數據處理方面事情的關鍵。(附注:我正在尋找這句話的確切出處,結果在他的碩士論文《我喜歡日志》中找到了。然后我注意到他在一段話之后做出了這個馬斯洛的需求層次論的比較,并以值得注意的是來作為附注。說到相關工作,后來我又看到了HilaryMason和ChrisWiggings的精彩文章,機器人維修,講的是數據科學家應該做什么事情。幾天前,SeanTaylor披露了自己的數據科學需求金字塔,當然這跟這里的金字塔是完全不同的。)

只有當你有了數據之后,工業機器人維修,才可以對數據進行探索和轉換。這里的工作包括臭名卓著的數據清洗,這是數據科學領域被低估的一項工作,這一塊我得另起一篇文章來談。當你發現你失去了一大塊數據,你的傳感器不可靠,某次版本變更意味著你的事件被丟失,你對某個標志產生了誤解時你就得回過頭來確保金字塔的基礎是牢靠的。

當你可以可靠地探索和清洗數據時,你就可以進行傳統上被認為是BI或分析方面的事情:定義要跟蹤的指標,其季候性以及對不同因素的敏感性。也需要進行一些艱苦的用戶細分的工作,去看看會不會有什么東西冒出來。然而,既然你的目標是AI,你現在要搭建的是隨后被認為是特征的東西,以供將來吸收進你的機器學習模型里面。在這個階段,你還知道了你打算要預測或者學習什么,你還可以開始通過生成標簽(自動或者手工的方式)來準備你的訓練數據。

這個階段也是你找到自己最令人興奮和引人注目的數據故事的時候但這也是另一篇文章的主題了。

好了,現在我能算了。接下來呢?

我們有了訓練數據了那是不是現在可以進行機器學習了呢?也許吧,如果你是想在內部進行客戶流失率預測的話;但如果結果是面向客戶的答案就是否定的。我們需要進行A/B測試(不管是如何的原始)或者有準備好的實驗框架,這樣才能逐步部署以避免災難,并在改變影響每個人之前對改變的效果進行粗略的估計。這也是將非常簡單的基線部署到位的合適時機(對于推薦系統來說,基線系統可以是最熱門,然后是細分用戶市場的最熱門這就是非常煩人但有效的個性化之前先用老一套)。

簡單的啟發法的難以擊敗甚至到令人驚訝的地步,它們會讓你以端到端的方式調試系統,這不需要神秘的機器學習黑箱,在這中間要需要超參數調整。

到了這個時候,你可以部署一個非常簡單的機器學習算法(比如邏輯回歸或者分類等),然后考慮可能影響到你的結果的信號和特征。天氣和普查數據是我的目標。還有,盡管深度學習很強大,但它不會自動幫你做這些事情。引入新的信號(特征建立,不是特征工程)可以大幅改善你的性能。在這里花些時間是值得的,即便身為數據科學家我們也對向上進入金字塔的更高層面感到興奮。

發展AI!

數據有了。裝置也有了。你的ETL開始發揮作用了。你的數據已經組織好并且清洗過了。你有了儀表盤,標簽以及好的特征。你在測量合適的東西。你可以每天進行試驗。你有了一個基線算法,可以進行端到端的調試,并且在生產中運轉而且你已經對它進行了十幾次的變更。總之,你已經準備好了。接下來從自己鋪開到利用專長于機器學習的公司,你可以繼續去嘗試最新最好的東西。你可能可以在生產方面取得巨大改進,或者也許不能。但最壞的情況下,你也能學到一些新的方法,形成自己的觀點并有了上手體驗,并且可以告訴你的投資者和客戶自己在AI方面做了哪些努力而不是給人感覺像是個騙子。而在最好的情況下,你可以為用戶、客戶和公司帶來巨大的不同這是機器學習的一個真正的成功故事。

等一下,MVP、敏捷、精益等其他東西呢?

數據科學需求層次輪不是用1年的時間過度建設脫節的基礎設施的借口。就像傳統的最小可行產品(MVP)的開發套路一樣,你也要從產品小的垂直板塊開始,把它從端到端都做好了。比方說,在Jawbone,我們先從睡眠數據開始并搭建它的金字塔:工具手段,ETL,清洗和組織,標簽捕捉和定義,指標(大家美軍每晚的睡眠時間是多長?小憩呢?什么是小憩?),跨細分市場分析,一直到數據故事和機器學習驅動數據產品(自動睡眠檢測)。我們后來又把它延伸到步數,然后食物、天氣、鍛煉、社交網絡以及溝通每次做一個。在端到端做完一件事情之前我們并沒有建設一個包羅萬象的基礎設施。

提出合適的問題,開發合適的產品

這只與如何可以有關,跟應該如何無關(出于實用主義或者道德倫理的原因)。

機器學習工具的希望

等一下,AmazonAPI或者TensorFlow等別的開源庫呢?其他在賣機器學習或者自動析取洞察和特征的工具的公司呢?

免責聲明:本網部分文章和信息來源于互聯網,本網轉載出于傳遞更多信息和學習之目的。如轉載稿涉及版權等問題,請立即聯系網站所有人,我們會予以更改或刪除相關文章,保證您的權利。
主站蜘蛛池模板: 札达县| 湘潭县| 双城市| 门头沟区| 德钦县| 方城县| 兰坪| 兴义市| 南京市| 中卫市| 全南县| 黄陵县| 托克托县| 永嘉县| 宁阳县| 邢台县| 荣成市| 叙永县| 绵阳市| 武清区| 嘉黎县| 盐山县| 枣庄市| 崇左市| 锡林郭勒盟| 凤翔县| 类乌齐县| 灌南县| 霍林郭勒市| 新民市| 孙吴县| 宜城市| 西林县| 镇康县| 晴隆县| 镇康县| 葫芦岛市| 荣昌县| 天津市| 荣昌县| 炉霍县|