近期,清華大學-中國工程院知識智能聯合研究中心、中國人工智能學會吳文俊人工智能科學技術獎評選基地聯合發布了《2019人工智能發展報告》,遴選了13個人工智能的重點領域,包括深度學習、計算機視覺、語音識別、機器人等熱點前沿技術的基礎及應用研究、發展動向等。
深度學習讓圖像、語音等感知類問題取得突破
機器學習是一門多領域交叉學科,專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能。
1950年,阿蘭·圖靈創造了圖靈測試來判定計算機是否智能。圖靈測試認為,如果一臺機器能夠與人類展開對話而不能被辨別出其機器身份,那么稱這臺機器具有智能。這一簡化使得圖靈能夠令人信服地說明“思考的機器”是可能的。
后來,IBM科學家亞瑟·塞繆爾開發的跳棋程序,駁倒了普羅維登斯提出的機器無法超越人類的論斷,像人類一樣寫代碼和學習的模式,他創造了“機器學習”這一術語。
然而,從20世紀60年代中期到70年代末期,機器學習的發展步伐幾乎停滯。無論是理論研究還是計算機硬件限制,整個人工智能領域的發展都遇到了很大的瓶頸,神經網絡學習機因理論缺陷也未能達到預期效果而轉入低潮。直到偉博斯在神經網絡反向傳播(BP)算法中具體提出了多層感知機模型,機器學習得以重振,并且直到今天BP算法仍然是神經網絡架構的關鍵因素。
神經網絡研究人員相繼提出了使用BP算法訓練的多參數線性規劃的理念,成為后來深度學習的基石。在另一個譜系中,昆蘭提出了一種非常出名的機器學習算法,具體地說是ID3算法,這種算法至今仍然活躍在機器學習領域中。
機器學習迎來爆發期是神經網絡研究領域領軍者Hinton在2006年提出了神經網絡Deep Learning算法,使神經網絡的能力大大提高。Hinton和他的學生 Salakhutdinov在《科學》上發表了一篇文章,開啟了深度學習在學術界和工業界的浪潮。
2015年,為紀念人工智能概念提出60周年,LeCun、Bengio和Hinton推出了深度學習的聯合綜述。深度學習可以讓那些擁有多個處理層的計算模型來學習具有多層次抽象的數據的表示,這些方法在許多方面都帶來了顯著的改善。深度學習的出現,讓圖像、語音等感知類問題取得了真正意義上的突破,離實際應用已如此之近,將人工智能推進到一個新時代。
計算機視覺催生出人臉識別、智能視頻監控等應用
計算機視覺,顧名思義,是分析、研究讓計算機智能化地達到類似人類的雙眼“看”的一門研究科學,即對于客觀存在的三維立體化的世界的理解以及識別依靠智能化的計算機去實現。
計算機視覺技術就是利用了攝像機以及電腦替代人眼使得計算機擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別、決策等功能。
馬爾(David Marr)《視覺》一書的問世,標志著計算機視覺成為了一門獨立學科。計算機視覺40多年的發展中,盡管人們提出了大量的理論和方法,庫卡機器人,但總體上說,計算機視覺經歷了三個主要歷程:馬爾計算視覺、多視幾何與分層三維重建和基于學習的視覺。
目前,在計算機上調“深度網絡”來提高物體識別的精度似乎就等于從事“視覺研究”。馬爾的計算視覺分為三個層次:計算理論、表達和算法以及算法實現。由于馬爾認為算法實現并不影響算法的功能和效果,所以馬爾計算視覺理論主要討論“計算理論”和“表達與算法”二部分內容。
馬爾認為,大腦的神經計算和計算機的數值計算沒有本質區別,所以馬爾沒有對“算法實現”進行任何探討。從現在神經科學的進展看,“神經計算”與數值計算在有些情況下會產生本質區別,如目前興起的神經形態計算,但總體上說,“數值計算”可以“模擬神經計算”。至少從現在看,“算法的不同實現途徑”,并不影響馬爾計算視覺理論的本質屬性。
20世紀90年代初,計算機視覺從“蕭條”走向“繁榮”,主要得益于以下二方面的因素:一方面,瞄準的應用領域從精度和魯棒性要求太高的“工業應用”轉到要求不太高,特別是僅僅需要“視覺效果”的應用領域,如遠程視頻會議、考古、虛擬現實、視頻監控等;另一方面,人們發現,多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。
多視幾何的代表性人物首數法國INRIA的O.Faugeras,美國 GE研究院的R.Hartely和英國牛津大學的A.Zisserman。2000年Hartely和Zisserman合著的書對這方面的內容給出了比較系統的總結。大數據需要全自動重建,而全自動重建需要反復優化,而反復優化需要花費大量計算資源。舉一個簡單例子,假如要三維重建北京中關村地區,為了保證重建的完整性,需要獲取大量的地面和無人機圖像。假如獲取了1萬幅地面高分辨率圖像(4000×3000)、5千幅高分辨率無人機圖像(8000×7000),三維重建要匹配這些圖像,從中選取合適的圖像集,然后對相機位置信息進行標定并重建出場景的三維結構,如此大的數據量,人工干預是不可能的,所以整個三維重建流程必須全自動進行。
基于學習的視覺,庫卡機器人,則是指以機器學習為主要技術手段的計算機視覺研究。基于學習的視覺研究,文獻中大體上分為二個階段:21世紀初的以流形學習為代表的子空間法和目前以深度學習為代表的視覺方法。
近年來,巨量數據的不斷涌現與計算能力的快速提升,給以非結構化視覺數據為研究對象的計算機視覺帶來了巨大的發展機遇與挑戰性難題,計算機視覺也因此成為學術界和工業界公認的前瞻性研究領域,部分研究成果已實際應用,催生出人臉識別、智能視頻監控等多個極具顯示度的商業化應用。
語音識別被應用于工業、通信、醫療等行業