AI場景的價值體現——視覺AI技術落地實踐
楊帆,商湯科技聯合創始人、副總裁,EGO北京分會會員。作為商湯科技工程產品中心總負責人,在泛安防智能視頻、移動互聯網、金融等行業開發和提供人工智能解決方案。憑借在計算機視覺算法產品化、項目管理、研發管理和團隊管理方面十余年的積累和經驗,楊帆推動商湯科技在技術應用商業化落地方面取得重大進展,僅2016年就獲取了數億元的產品訂單。因參與創建商湯科技,并在短短三年內將其打造成為人工智能領軍企業的突出表現,于2016年當選北京市優秀青年人才。
以下內容由InfoQ對楊帆先生的部分采訪整理。
AI更大的價值在于跟不同的行業結合
楊帆在計算機視覺技術領域沉浸多年,在微軟任職期間,他主要從事計算機視覺、計算機圖形學等領域的新技術孵化工作,包括人臉識別、圖像物體識別、人像三維重建等;目前商湯的核心技術也是以人臉識別、智能監控、圖像識別等為主。作為主導技術落地的負責人,楊帆笑稱自己是給公司的研究員們打下手的。楊帆帶領逾200人的工程開發團隊,在泛安防智能視頻、移動互聯網、金融等行業開發和提供人工智能解決方案,推動商湯科技在技術應用落地方面取得重大進展。
楊帆認為,AI技術并非新事物,工業機器人維修,但卻在過去的兩三年集中爆發,其關鍵原因就在于今天對語音、圖像、視頻,有了更加信息化的處理技術,在各個環節上具備了更強的技術儲備。從技術到落地,AI技術所實現的這一切,都離不開場景的支持。
AI技術繼承了多種基礎技術,在面向工業、金融、醫療、家居、自動駕駛、安防、物流、農業等不同應用場景的解決方案,比如AI和醫療的融合應該會體現在智能設備和識別診斷主要兩個方面;AI和金融的整合使金融交易和管理更加安全,實現精準營銷、大數據征信和普惠金融;AI和安防的融合實現智能監控、安保機器人等應用場景;AI、大數據等這些東西純談概念是沒有任何意義的,最終都要回歸場景,可復用的基礎技術和平臺工具固然重要,但只有落在應用場景里,我們才知道其明確的價值在哪里。
業界曾出現一種批評的聲音,稱現在很多公司和開發者其實對于深度學習的運作原理并不清楚,只知道應用,卻不知其所以然。
楊帆表示:學術界有兩套觀念,一套觀念說知其然不知其所以然是離經叛道、是不對的。對于這個觀念,楊帆表示認可,其實現在已經有很多團隊,包括商湯也投入力量在進行更加前沿、更加基礎性的科研,這樣的基礎科研能夠指導我們將來在正確的方向上走得更遠。但楊帆認為,基礎研究與應用科研,二者不可偏廢,完整的科學體系和持續的方向性指引非常重要,但是實證科學也非常重要,企業最終還是要以技術落地的結果說話。
人臉識別大行其道,不免讓人對這項技術及其背后的公司產生了許多好奇。商湯的人臉識別技術到底有何門道?
對于這兩年非常火的刷臉,開始有各種基于人臉驗證能力的實用化場景。在互聯網信息安全方面,對于賬戶的盜用能夠更好的分析和調查,包括線上的手機端、桌面端、H5,包括定制的攝像頭。操作邏輯非常簡單,最開始做刷臉的注冊,現在刷臉的支付,手機逐漸去進行刷臉的解鎖。在對于個人的認證上,也有非常多的價值。人臉識別的技術,可以判斷操作手機的是不是真實的人。有一個活體檢測的技術服務,也包括在線下一體機的形態。對身份證的關鍵信息進行掃描,包括對身份證內部照片的讀取和當前采集人之間進行判斷。基于人像的身份認證也是一個非常有價值的工作,它是一個特殊的跨行業的解決方案。這個解決方案現在已經從線上到線下開始極大范圍地蔓延。對中國來說,個人公民身份信息的實名制是一個非常重要的訴求,這個訴求能夠有效地幫我們在一定程度上解決互聯網的安全問題、解決線下的公共安全問題。所有線上的互聯網行業應用,到各種線下行業,包括機場、超市、酒店,都會有越來越多的對于個人身份信息核驗的強烈需求,商湯在這方面也提供了非常完整的解決方案。
大家都關注識別正確率,在實際場景中正確率是否為最關鍵因素?
近幾年,很多公司在人臉識別技術上投入了大量的研發并取得了亮眼的成績,其中識別率一直是各家宣傳的重點,今年我們能在各類報道中頻繁看到各種99%、99.4%、99.8%等。雖然企業這么宣稱,但實際背后蘊含的差異是非常大的,它會有非常多影響因素,所以準確率跟行業背景以及前置假設會是一個強相關的關系。而不同的場景下取得的識別準確率很難做類比。
當識別率達到99%以后,人臉識別技術面臨的難點主要在于,如何在不同行業場景中深化這項技術。雖然看上去99%的識別率已經很高了,但不同行業場景對于識別率的要求不同,99%可能只是該技術得以使用的入門條件;而安防場景下,照片模糊、有遮擋、角度不佳都給人臉識別帶來了更現實的挑戰。
看似同質化很強、很簡單的人臉識別,細分的技術場景其實非常復雜,所以脫離場景去談技術是沒有太大意義的,今天能看得到的,包括以安防、手機這樣的一些重點行業為代表,對于真正的人臉識別技術的全面深化存在著非常多的挑戰,值得我們去攻克。
那么,怎樣判斷一個行業是否具有做AI場景的價值?如果從商湯自身說起,在做AI平臺化的進程中,遇到過哪些挑戰和問題?
1、看需求
首先,需求得是真實的。楊帆舉了個具體的例子:有一個家電廠商想通過人臉識別功能,實現我進去之后這個房間自動調節成16度,我母親進這個房間自動調節成26度。我問他:如果你和你母親一塊進去怎么辦,如果你背著身進去怎么辦?他說這個需求,其實最好的解決辦法就是搖控器。
其次,需求得是剛性的。需要考慮用戶愿不愿意買單,愿意花多少錢買單?往后更深層次的邏輯鏈,需要對場景的更深的了解。
2、規模化
今天完成一套解決方案成本很高。人臉識別這樣的技術,在不同的場景中技術差異很大。我今天做金融,1:1的認證,錯誤率做到百萬分之一,千萬分之一,準確性非常高,在金融場景中非常好用。如果放在安防的場景下,安防要求百萬人的黑名單庫。而且黑名單庫還要有誤報,每一次誤報有一個出警。同樣是人臉識別,不同場景下關注的技術指標和任務是完全不同的。所以同樣一個技術概念,在不同場景下的差異性非常明顯。再者技術什么時候成熟需要在特定的需求場景下,離成熟多遠要有一個預判力。
3、數據閉環
做AI技術,數據閉環是非常重要的環節。為什么?我們做視頻的會發現,當你技術不成熟的時候你的業務不能用,業務沒有落地的時候就沒有數據。做不好,就形成死循環。這樣的死循環如何去打破?原動力的突破來自于技術,當你的技術有小的突破,把其他場景遷移過來。技術的突破可以帶來業務的落地,業務的落地帶來數據的累積,數據的累計可以帶來技術的進步。這樣的數據閉環,幫助整體業務拓展并能帶來非常大的價值。今天,數據面臨隱私性和安全性的質問和考驗。包括區塊鏈在內的很多技術,還有一些非技術的方式方法,可以帶來更深層次的探索。
4、商業化
光做出好產品是不夠的,還要在市場上真的有價值,并且能持續保有競爭力。任何新技術都會隨著時間的推移而擴散,一般所擁有的時間窗口最多也就是一年多的時間。