人工智能大火,BasicFinder要做數據采集、加工的“送水人”
眼前的女員工,正把手寫體的古德文轉錄為印刷體字母,經過培訓,她已經可以熟練操作,每秒鐘至少轉換1個字母,要知道,即便是在德國,完全認識這種古老字體的人也寥寥無幾。之后,轉錄出的文字會發給OCR(OpticalCharacterRecognition,光學字符識別)公司,做為機器訓練的數據材料。
另一邊,員工在標記圖片中汽車的可行駛區域,之后會用于無人駕駛場景的訓練。
就像傳統工廠一樣,數據正在流水線上處理,被分塊加工。這一切都源于人工智能行業的崛起。Tractica預測,2024年人工智能市場規模將增長至111億美元。但AI要真正發揮作用,優質的數據必不可少,所以,前端的數據采集、加工環節單拎出來成為了新的機會點。
其實,數據標注并不算一個完全新興的產業,成立于1998年的海天瑞聲已在語音領域耕耘近20年,因為人工智能一詞的提出,最早可以追溯到20世紀50年代,不過此前主流技術沒有到深度學習的階段,所以數據用的相對較少。目前這個賽道上,成立久的有數據堂,早期公司有獲得明勢資本Pre-A輪融資的愛數智慧,完成天使輪融資的泛涵科技,獲得合力投資數百萬天使的丁火智能,今天要講的BasicFinder也是賽道上一員。
正如上面的場景,數據標記是個重人力的勞動密集型行業。這類公司的關鍵點就在于人員效率、交付質量。
市面上很多公司都采用眾包模式,找人兼職做標記,亞馬遜每天會發布任務給墨西哥以及印度兼職人員,但很多高精度工作是不適合眾包的。BasicFinder創始人杜霖告知,BasicFinder采用的是自營模式,目前擁有12家下轄數據工廠及2000余名數據操作員,為了保證質量,這些數據工廠有些是參與投資,有些是深度合作,操作員大多是經過培訓的打字員,她們技能相對匹配、標記效率又高。杜霖補充,若是音頻數據,BasicFinder會挑選聽力較好的技術員,篩選通過率僅在30%。
具體到標記過程,BasicFinder都是流水線式的,從最前端的任務定義、采集數據,到中間的清洗、加工,以及后端的質量檢測、訓練迭代等全部環節分開作業,并開發了一套系統輔助人工提高效率。
舉幾個例子,拿視頻標記骨骼來說,系統首先將視頻的每幀切成畫面,然后把沒有人或者身體不全的畫面去掉,這就完成了清洗過程。接下來,工人打點標記,若圖中人物較多,系統會分割后派給不同標記員,以防單人作業眼花標亂。再比如,無人便利店的項目要求是框出商品,BasicFinder系統會提供輔助線幫人工標記,比無線情況下,至少提升1倍的效率。
加工完的數據,還面臨一道不可缺少的步驟就是校驗。相對而言,這是不能標準化的事情,BasicFinder目前用人工復查,跟標記的耗時相比,在1:11:3之間。
最后就是安全層面,杜霖告知,對于客戶提供的數據素材,BasicFinder實行交付即焚,保證數據不會復用。若企業有非常嚴格的需求,BasicFinder還提供隔離標記房,數據不會經過BasicFinder服務器,并且房內有監控,客戶可隨時查看員工作業過程,以及每一臺設備的標記情況。
不僅如此,在前端的采集,BasicFinder也不主張數據復用。在人臉識別場景中,批量購買超市等攝像頭的數據成本很低,但有法律風險,工業機器人維修,其實侵犯了個人肖像權,BasicFinder的解決方案是,跟每一個員工或者被采集人簽訂授權協議,即便有公司提出同樣的需求,我們會用同樣的方法再采集一遍,也不會私下復用。杜霖強調,庫卡機器人驅動器維修,BasicFinder的定位不是數據買賣公司,而是在加工的質量上。
當然,對于一些公開的數據集,比如說景物的識別,BasicFinder也會自建數據庫,供企業采購。但實際在人工智能行業里,數據素材可復用的機率相對較低,杜霖補充,因為每家公司的要求都不一樣,同是標記商品,有的公司會要求勾勒輪廓,有的會要求貼邊打框,有的精度在10%的誤差,有的在5%
值得一提的是,BasicFinder的工具平臺正在內部試用中,并將于近期正式對外公布。客戶在平臺上直接簡單組合,填寫相關參數,www.twshmhelmet.com,即可以相對精準的定義任務。平臺接受到任務后,會按照要求把數據任務輕松分配到數據工廠甚至個人,數據工廠的工人在平臺上進行操作,并借助相關的工具提升作業效率,客戶在后臺就能及時來監控這些信息,不合格的數據也可以及時返工,最后保證會輸出質量較高的數據。
系統之后會不斷迭代,無非就是提高效率,問及是否會用機器替代人力進行標記,杜告表示不會,因為人工標記出得數據在誤差層面符合正態分布,而機器標記的都是同一水平,用機器生產的數據再訓練機器,并不利于AI最后的訓練效果。
至于收費模式,BasicFinder會根據樣本耗時估算一個人力成本,走項目制。
據悉,現階段,BasicFinder的訂單多為數據標注,國內外客戶占比接近1:1,包括中科院、搜狗、中國移動、華為、創新工場、云知聲、國外知名科研院所等。這些客戶多在使用深度學習相關的框架進行研發,因此對數據的需求量較大,客戶的算法相對比較成熟,因此任務往往為個性化任務。客戶中,最高訂單定價在百萬元,不少用戶會多次下達不同的訂單。
其實對于這一波因為深度學習而興起的數據服務商來說,最大的潛在威脅很可能并非來自競品,而是來自于增強學習、遷移學習等算法,后者僅需要少量的數據即可以達到一定的效果。杜霖表示,這方面公司也在密切關注,一方面目前增強學習、遷移學習等算法還不成熟,很難大規模應用;另一方面,這些算法也需要基礎的學習數據,同時公司也有可能提供包含人工操作的數據以提供給這些算法。
BasicFinder注冊成立于2015年,目前核心研發團隊在20人左右。創始人杜霖是一個連續創業者,在上海交通大學計算機系讀大二的時候,就開始了第一次創業經歷,當時開發了一款SEM搜索引擎自動化營銷工具,后以300萬美元的價格打包賣給了一家土耳其電子商務網站。2010年大學畢業后,杜霖從事了數年TMT創投工作。2015年預感到深度學習的潛力及對數據的需求,成立了BasicFinder。公司已經獲得過兩輪融資,天使輪由個人投資數百萬元,2017年3月份,完成了一千多萬元pre-A輪融資,計劃今年底或明年初再進行A輪融資。