新阿爾法狗照見了人類經驗的局限性
2017年10月19日,谷歌Deepmind團隊在《自然》刊發論文《精通圍棋對弈無需借助人類知識》。一款新的人工智能AlphaGoZero,從零開始學習,自己與自己對弈,不借助任何圍棋棋譜與人類經驗,10小時左右發現簡單定式;15小時發現復雜定式;55小時左右發現人類頂尖高手從未用過的新定式;72小時出關。出關后以100∶0完敗AlphaGoLee(曾戰勝李世石),以89∶11大勝棋力更強的AlphaGoMaster。
在AlphaGo系列版本連敗人類頂尖高手之后,圍棋對弈的看頭已不在人類頂尖高手之間,也不在人工智能與人類頂尖高手之間,只在人工智能與人工智能之間了。AlphaGoZero三天的自我學習,超越了人類幾千年對圍棋知識的積累,也超越了借助于人類經驗與大數據訓練的AlphaGoLee及Master,讓人嘆為觀止,充分揭示了人類經驗的局限性。
有人說,AlphaGoZero橫空出世,說明算法比大數據更重要。這當然是對的。棋力的本質就是算法與算力。
首先,人工智能戰勝人類頂尖高手,是算法與算力的勝利。由于算力的限制,人類棋手采用的是局部最優化算法,每一落子,主要考慮對周邊局面當下與后續的影響。算力優裕的人工智能,原則上可采用全局最優化算法,每一落子,KUKA機器人示教器維修,考慮對全局當下與后續的全部影響。在絕大多數情況下,局部最優與全局最優的落子是一致的。但極少數情況下,局部最優就不是全局最優,人工智能就碾壓人類頂尖高手了。
其次,用一張神經網絡自我學習與訓練的人工智能,戰勝借助于人類經驗與大數據訓練的人工智能,也是算法的勝利。看來,前者才是真全局最優化算法,因不看棋譜而免于被人類經驗帶偏;后者只是準全局最優化算法,算法受到了人類棋譜中的局部最優化算法的污染,也就是說,人類經驗束縛了人工智能棋力的提升。這對人類來說真是一個尷尬的事實。
由此,圍棋的終結那一天似乎也不遠了。圍棋對弈是在完全信息下進行的,規則也很明確,理論上存在著一盤終極棋局:對弈雙方下的每一步,都是全局意義上的最優落子,也就是說,任何一方的任何一步不這樣落子是不明智的,KUKA機器人示教器維修,最后就形成了終極棋局。
AlphaGoZero的最大意義,在于有助于我們反思人類經驗的局限性,讓我們清醒認識到經驗有效性的邊界在哪里,不至于以為自己的經驗是絕對真理。人類經驗的本質其實就是局部最優解。你的個人經驗就是你個人視角下的局部最優解。
如果說在圍棋對弈中人類棋手不得不采用局部最優化算法的原因是算力限制,庫卡機器人驅動器維修,那么在日常決策中人們采用局部最優化算法的主要原因在于信息不充分、不準確。人類社會中的博弈基本都是信息不對稱下的博弈。你在對自己掌握的有限信息去粗取精、去偽存真之后做出的決策,是局限條件下最優的決策,但并不一定等于真正對你最優、最有利的決策。不過,要是你占有的信息盡可能全面、盡可能精確,那你的決策就會更接近于上帝全知視角下的全局最優解。
此外,人們在決策中常犯的錯誤是只考慮短期效應,而忽視長期效應;只看到看得見的,而忽視看不見的;只看到直接的一階效應,而忽視二階效應等高階效應。這看起來也挺像算力限制導致的,但其實是一種算法缺陷,是智力上的懶惰。AlphaGoZero就不會犯這樣的錯誤,一定會考慮落子對當下與后續的全部影響。
是的,AlphaGoZero就是一面鏡子,照見了人類經驗的局限性。