李開復、馬少平、周志華、田淵棟都是怎么看AlphaGo Zero的？

本文作者：汪思穎

編輯：郭奕欣

2017-10-24 09:40

導語：AlphaGo Zero又一次引起了學界大牛的大討論，李開復、馬少平、周志華、田淵棟紛紛發(fā)表言論。

雷鋒網(wǎng) AI科技評論消息，北京時間10月19日凌晨，Deepmind在Nature上發(fā)布論文《Mastering the game of Go without human knowledge》（不使用人類知識掌握圍棋），在這篇論文中，Deepmind展示了他們更強大的新版本圍棋程序“AlphaGo Zero”，驗證了即使在像圍棋這樣最具挑戰(zhàn)性的領域，也可以通過純強化學習的方法自我完善達到目的。據(jù)介紹，AlphaGo Zero僅經(jīng)過三天訓練，就能以100：0擊敗此前擊敗李世石的AlphaGo Lee，經(jīng)過21天訓練，就能達到擊敗柯潔的AlphaGo Master的水平。

毫無疑問，這又一次引起了學界大牛的大討論，李開復、馬少平、田淵棟、周志華也紛紛發(fā)表言論。雷鋒網(wǎng) AI科技評論將他們的觀點整合如下：

李開復：不要低估AI發(fā)展速度，正視中美學術差距

創(chuàng)新工場董事長李開復老師看到AlphaGo Zero的消息之后，短短兩句話總結(jié)了他的觀點：

李開復、馬少平、周志華、田淵棟都是怎么看AlphaGo Zero的？

一是AI前進的速度比想象中更快，即便是行業(yè)內(nèi)的人士都被AlphaGo Zero跌破眼鏡；
二是要正視中國在人工智能學術方面和英美的差距。

隨后，他又發(fā)表文章補充分享了對AlphaGo Zero的觀點。他表示，雖然AlphaGo Zero的技術革新并非適用于所有人工智能領域，并且此次沒有新的巨大的理論突破，但這次它帶來的影響力也是巨大的。原文如下：

一方面，AlphaGo Zero的自主學習帶來的技術革新并非適用于所有人工智能領域。圍棋是一種對弈游戲，是信息透明，有明確結(jié)構(gòu)，而且可用規(guī)則窮舉的。對弈之外，AlphaGo Zero的技術可能在其他領域應用，比如新材料開發(fā)，新藥的化學結(jié)構(gòu)探索等，但這也需要時間驗證。而且語音識別、圖像識別、自然語音理解、無人駕駛等領域，數(shù)據(jù)是無法窮舉，也很難完全無中生有。AlphaGo Zero的技術可以降低數(shù)據(jù)需求（比如說WayMo的數(shù)據(jù)模擬），但是依然需要大量的數(shù)據(jù)。
另一方面，AlphaGo Zero里面并沒有新的巨大的理論突破。它使用的Tabula Rosa learning（白板學習，不用人類知識），是以前的圍棋系統(tǒng)Crazy Stone最先使用的。AlphaGo Zero里面最核心使用的技術ResNet，是微軟亞洲研究院的孫劍發(fā)明的。孫劍現(xiàn)任曠視科技Face++首席科學家。

雖然如此，這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美集成這些技術，本身就具有里程碑意義。DeepMind的這一成果具有指向標意義，證明這個方向的可行性。

在科研工程領域，探索前所未知的方向是困難重重的，一旦有了可行性證明，跟隨者的風險就會巨幅下降。我相信從昨天開始，所有做圍棋對弈的研究人員都在開始學習或復制AlphaGo Zero。材料、醫(yī)療領域的很多研究員也開始探索。

AlphaGo Zero的工程和算法確實非常厲害。但千萬不要對此產(chǎn)生誤解，認為人工智能是萬能的，所有人工智能都可以無需人類經(jīng)驗從零學習，得出人工智能威脅論。AlphaGo Zero證明了AI 在快速發(fā)展，也驗證了英美的科研能力，讓我們看到在有些領域可以不用人類知識、人類數(shù)據(jù)、人類引導就做出頂級的突破。

但是，AlphaGo Zero只能在單一簡單領域應用，更不具有自主思考、設定目標、創(chuàng)意、自我意識。即便聰明如 AlphaGo Zero，也是在人類給下目標，做好數(shù)字優(yōu)化而已。

馬少平：AlphaGo Zero已經(jīng)將計算機圍棋做到極致，但也有其局限性

清華大學計算機系教授馬少平也在博客上評價了AlphaGo Zero，他表示AlphaGo Zero把計算機圍棋做到了極致，隨后將其與之前的版本進行了充分對比，另外，他也表示AlphaGo Zero有其應用局限性：

從早上開始，就被AlphaGo Zero的消息刷屏了，DeepMind公司最新的論文顯示，最新版本的AlphaGo，完全拋棄了人類棋譜，實現(xiàn)了從零開始學習。

對于棋類問題來說，在蒙特卡洛樹搜索的框架下，實現(xiàn)從零開始學習，我一直認為是可行的，也多次與別人討論這個問題，當今年初Master推出時，就曾預測這個新系統(tǒng)可能實現(xiàn)了從零開始學習，可惜根據(jù)DeepMind后來透露的消息，Master并沒有完全拋棄人類棋譜，而是在以前系統(tǒng)的基礎上，通過強化學習提高系統(tǒng)的水平，雖然人類棋譜的作用越來越弱，但是啟動還是學習了人類棋譜，并沒有實現(xiàn)“冷”啟動。

根據(jù)DeepMind透露的消息，AlphaGo Zero不但拋棄了人類棋譜，實現(xiàn)了從零開始學習，連以前使用的人類設計的特征也拋棄了，直接用棋盤上的黑白棋作為輸入，可以說是把人類拋棄的徹徹底底，除了圍棋規(guī)則外，不使用人類的任何數(shù)據(jù)和知識了。僅通過3天訓練，就可以戰(zhàn)勝和李世石下棋時的AlphaGo，而經(jīng)過40天的訓練后，則可以打敗與柯潔下棋時的AlphaGo了。

真是佩服DeepMind的這種“把革命進行到底”的作風，可以說是把計算機圍棋做到了極致。

那么AlphaGo Zero與AlphaGo（用AlphaGo表示以前的版本）都有哪些主要的差別呢？

1、在訓練中不再依靠人類棋譜。AlphaGo在訓練中，先用人類棋譜進行訓練，然后再通過自我互博的方法自我提高。而AlphaGo Zero直接就采用自我互博的方式進行學習，在蒙特卡洛樹搜索的框架下，一點點提高自己的水平。

2、不再使用人工設計的特征作為輸入。在AlphaGo中，輸入的是經(jīng)過人工設計的特征，每個落子位置，根據(jù)該點及其周圍的棋的類型（黑棋、白棋、空白等）組成不同的輸入模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益于后邊介紹的神經(jīng)網(wǎng)絡結(jié)構(gòu)的變化，使得神經(jīng)網(wǎng)絡層數(shù)更深，提取特征的能力更強。

3、將策略網(wǎng)絡和價值網(wǎng)絡合二為一。在AlphaGo中，使用的策略網(wǎng)絡和價值網(wǎng)絡是分開訓練的，但是兩個網(wǎng)絡的大部分結(jié)構(gòu)是一樣的，只是輸出不同。在AlphaGo Zero中將這兩個網(wǎng)絡合并為一個，從輸入到中間幾層是共用的，只是后邊幾層到輸出層是分開的。并在損失函數(shù)中同時考慮了策略和價值兩個部分。這樣訓練起來應該會更快吧？

4、網(wǎng)絡結(jié)構(gòu)采用殘差網(wǎng)絡，網(wǎng)絡深度更深。AlphaGo Zero在特征提取層采用了多個殘差模塊，每個模塊包含2個卷積層，比之前用了12個卷積層的AlphaGo深度明顯增加，從而可以實現(xiàn)更好的特征提取。

5、不再使用隨機模擬。在AlphaGo中，在蒙特卡洛樹搜索的過程中，要采用隨機模擬的方法計算棋局的勝率，而在AlphaGo Zero中不再使用隨機模擬的方法，完全依靠神經(jīng)網(wǎng)絡的結(jié)果代替隨機模擬。這應該完全得益于價值網(wǎng)絡估值的準確性，也有效加快了搜索速度。

6、只用了4塊TPU訓練72小時就可以戰(zhàn)勝與李世石交手的AlphaGo。訓練40天后可以戰(zhàn)勝與柯潔交手的AlphaGo。

對于計算機圍棋來說，以上改進無疑是個重要的突破，但也要正確認識這些突破。比如，之所以可以實現(xiàn)從零開始學習，是因為棋類問題的特點所決定的，是個水到渠成的結(jié)果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結(jié)果的勝負，這樣才可以不用人類數(shù)據(jù)，自己實現(xiàn)產(chǎn)生數(shù)據(jù)，自我訓練，自我提高下棋水平。但是這種方式很難推廣到其他領域，不能認為人工智能的數(shù)據(jù)問題就解決了。

周志華：啟發(fā)式搜索可能因此發(fā)生巨變

南京大學計算機系教授周志華在微博上也第一時間發(fā)表了他的觀點，從多個方面對Alphago Zero進行了評價。

李開復、馬少平、周志華、田淵棟都是怎么看AlphaGo Zero的？

花半小時看了下文章，說點個人淺見，未必正確僅供批評：
1、別幻想什么無監(jiān)督學習，監(jiān)督信息來自精準規(guī)則，非常強的監(jiān)督信息。
2、不再把圍棋當作從數(shù)據(jù)中學習的問題，回歸到啟發(fā)式搜索這個傳統(tǒng)棋類解決思路。這里機器學習實質(zhì)在解決搜索樹啟發(fā)式評分函數(shù)問題。
3、如果說深度學習能在模式識別應用中取代人工設計特征，那么這里顯示出強化學習能在啟發(fā)式搜索中取代人工設計評分函數(shù)。這個意義重大。啟發(fā)式搜索這個人工智能傳統(tǒng)領域可能因此巨變，或許不亞于模式識別計算機視覺領域因深度學習而產(chǎn)生的巨變。機器學習進一步蠶食其他人工智能技術領域。
4、類似想法以往有，但常見于小規(guī)模問題。沒想到圍棋這種狀態(tài)空間巨大的問題其假設空間竟有強烈的結(jié)構(gòu)，存在統(tǒng)一適用于任意多子局面的評價函數(shù)。巨大的狀態(tài)空間誘使我們自然放棄此等假設，所以這個嘗試相當大膽。
5、工程實現(xiàn)能力超級強，別人即便跳出盲點，以啟發(fā)式搜索界的工程能力也多半做不出來。
6、目前并非普適，只適用于狀態(tài)空間探索幾乎零成本且探索過程不影響假設空間的任務。

田淵棟：AlphaGo Zero 證明了從理論上理解深度學習算法的重要性

Facebook 人工智能組研究員田淵棟也在知乎上發(fā)文闡述了他的觀點。他表示，這一方法將成為經(jīng)典。在文中，他也闡述了此次有哪些震驚到他的地方，以及一些推論。

李開復、馬少平、周志華、田淵棟都是怎么看AlphaGo Zero的？

他的原文如下：

老實說這篇Nature要比上一篇好很多，方法非常干凈標準，結(jié)果非常好，以后肯定是經(jīng)典文章了。

Policy network和value network放在一起共享參數(shù)不是什么新鮮事了，基本上現(xiàn)在的強化學習算法都這樣做了，包括我們這邊拿了去年第一名的Doom Bot，還有ELF里面為了訓練微縮版星際而使用的網(wǎng)絡設計。另外我記得之前他們已經(jīng)反復提到用Value network對局面進行估值會更加穩(wěn)定，所以最后用完全不用人工設計的default policy rollout也在情理之中。

讓我非常吃驚的是僅僅用了四百九十萬的自我對局，每步僅用1600的MCTS rollout，Zero就超過了去年三月份的水平。并且這些自我對局里有很大一部分是完全瞎走的。這個數(shù)字相當有意思。想一想圍棋所有合法狀態(tài)的數(shù)量級是10^170（見Counting Legal Positions in Go：https://tromp.github.io/go/legal.html），五百萬局棋所能覆蓋的狀態(tài)數(shù)目也就是10^9這個數(shù)量級，這兩個數(shù)之間的比例比宇宙中所有原子的總數(shù)還要多得多。僅僅用這些樣本就能學得非常好，只能說明卷積神經(jīng)網(wǎng)絡（CNN）的結(jié)構(gòu)非常順應圍棋的走法，說句形象的話，這就相當于看了大英百科全書的第一個字母就能猜出其所有的內(nèi)容。用ML的語言來說，CNN的inductive bias（模型的適用范圍）極其適合圍棋漂亮精致的規(guī)則，所以稍微給點樣本水平就上去了。反觀人類棋譜有很多不自然的地方，CNN學得反而不快了。我們經(jīng)?？匆娕躃GS或者GoGoD的時候，最后一兩個百分點費老大的勁，也許最后那點時間完全是花費在過擬合奇怪的招法上。

如果這個推理是對的話，那么就有幾點推斷。

一是對這個結(jié)果不能過分樂觀。我們假設換一個問題（比如說protein folding），神經(jīng)網(wǎng)絡不能很好擬合它而只能采用死記硬背的方法，那泛化能力就很弱，Self-play就不會有效果。事實上這也正是以前圍棋即使用Self-play都沒有太大進展的原因，大家用手調(diào)特征加上線性分類器，模型不對路，就學不到太好的東西。一句話，重點不在左右互搏，重點在模型對路。
二是或許卷積神經(jīng)網(wǎng)絡（CNN）系列算法在圍棋上的成功，不是因為它達到了圍棋之神的水平，而是因為人類棋手也是用CNN的方式去學棋去下棋，于是在同樣的道路上，或者說同樣的inductive bias下，計算機跑得比人類全體都快得多。假設有某種外星生物用RNN的方式學棋，換一種inductive bias，那它可能找到另一種（可能更強的）下棋方式。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點，在側(cè)面上印證了這個思路。在這點上來說，說窮盡了圍棋肯定是還早。
三就是更證明了在理論上理解深度學習算法的重要性。對于人類直覺能觸及到的問題，機器通過采用有相同或者相似的inductive bias結(jié)構(gòu)的模型，可以去解決。但是人不知道它是如何做到的，所以除了反復嘗試之外，人并不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的數(shù)據(jù)分布上如何工作，那么我相信到那時我們回頭看來，針對什么問題，什么數(shù)據(jù)，用什么結(jié)構(gòu)的模型會是很容易的事情。我堅信數(shù)據(jù)的結(jié)構(gòu)是解開深度學習神奇效果的鑰匙。

另外推測一下為什么要用MCTS而不用強化學習的其它方法（我不是DM的人，所以肯定只能推測了）。MCTS其實是在線規(guī)劃（online planning）的一種，從當前局面出發(fā)，以非參數(shù)方式估計局部Q函數(shù)，然后用局部Q函數(shù)估計去決定下一次rollout要怎么走。既然是規(guī)劃，MCTS的限制就是得要知道環(huán)境的全部信息，及有完美的前向模型（forward model），這樣才能知道走完一步后是什么狀態(tài)。圍棋因為規(guī)則固定，狀態(tài)清晰，有完美快速的前向模型，所以MCTS是個好的選擇。但要是用在Atari上的話，就得要在訓練算法中內(nèi)置一個Atari模擬器，或者去學習一個前向模型（forward model），相比actor-critic或者policy gradient可以用當前狀態(tài)路徑就地取材，要麻煩得多。但如果能放進去那一定是好的，像Atari這樣的游戲，要是大家用MCTS我覺得可能不用學policy直接當場planning就會有很好的效果。很多文章都沒比，因為比了就不好玩了。

另外，這篇文章看起來實現(xiàn)的難度和所需要的計算資源都比上一篇少很多，我相信過不了多久就會有人重復出來，到時候應該會有更多的insight。大家期待一下吧。

幾位大牛從各個方面，全方位對AlphaGo Zero進行了分析?？赐赀@些分析的你，想必對AlphaGo Zero有了更深層次的理解。更多資訊敬請關注雷鋒網(wǎng) AI科技評論。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

9人收藏

汪思穎

編輯

關注AI學術，例如論文

發(fā)私信

當月熱門文章

久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

李開復、馬少平、周志華、田淵棟都是怎么看AlphaGo Zero的？

李開復、馬少平、周志華、田淵棟都是怎么看AlphaGo Zero的？