您當前的位置：體育新聞>體育快訊>

阿爾法首次復盤人機大戰自評等級分遠超柯潔

海口網　http://m.yinhu3.com　時間：2016-03-31 07:03

　　AlphaGo之父十年磨一劍

　　似乎在一夜之間，機器選手戰勝了人類最頂尖圍棋選手。但是，對于席爾瓦來說，人工智能圍棋耗時十幾年，最終不過是水到渠成。

　　作為AlphaGo的幕后團隊的技術主管，也是谷歌DeepMind團隊最重要的科學家之一，席爾瓦還身兼UCL大學的教職，是該校計算機系的教授，教授“強化學習”的課程。

　　席爾瓦是在加拿大阿伯塔大學獲得博士學位，師從世界上首屈一指的“強化學習”大師理查德·薩頓（Richard S.Sutton）研究強化學習算法，后來在另一座科技圣殿美國麻省理工學院從事博士后研究。

　　在攻讀博士以及博士后工作期間，席爾瓦一直致力于強化學習在圍棋人工智能上的研究。到英國UCL大學計算機系執教以后，他還經常拿圍棋作為授課的應用實例。??

　　席爾瓦的課程開始聽的人并非很多。三年前，我曾上過他的課程。有一次因故遲到了20分鐘，當時的教室里仍然可以找到座位。現在，隨著他加入到Deepmind團隊，尤其是他掌舵AlphaGo項目名聲大噪，他的課程也開始廣受歡迎，遲到的人基本上只能站著聽課了。?

　　加入DeepMind之前，席爾瓦即已開始和CEO戴密斯·哈薩比斯（Demis Hassabis）共同研究強化學習。哈薩比斯在UCL拿到了神經學博士學位。兩個人都癡迷于游戲，哈薩比斯少年時曾經是英國國際象棋隊隊長，在13歲便已經獲得國際象棋大師的頭銜，青年時自創游戲公司，而席爾瓦則長期對圍棋情有獨鐘。

　　2014年初，在被谷歌收購之前，DeepMind即開始與UCL洽談，希望能買斷席爾瓦的工作時間。這樣可以保留他在大學的教職的同時，還可以讓他在DeepMind全心工作。

　　加盟DeepMind之后，席爾瓦成立了20個人的AlphaGo團隊，專門研究圍棋人工智能。匯集整個團隊的力量，他要求在技術研發的每一個環節上都追求極致。AlphaGo團隊成員就透露，有的智能模塊在谷歌團隊看來已經很完美了，但是席爾瓦卻仍認為不及格，離完美還差很遠。

　　長期專注于人工智能與圍棋項目，在技術方面追求極致，再加上勢大財雄的谷歌的團隊配合，最終成就了AlphaGo的驟然爆發。

　　復盤谷李大戰

　　復盤是職業圍棋選手經常做的一件事，他們相信總結過去一盤棋的經驗和教訓，可以提高自己的棋藝。

　　AlphaGo團隊也做了復盤，通過幾張幻燈片的形式，席爾瓦復盤了這5場比賽的勝負關鍵處，而在場的聽眾被禁止拍照。

　　第一盤的勝負關鍵處是，AlphaGo執白棋第102手打入黑空，職業高手們普遍認為這是一招險招，看上去李世石對此也早有準備。事后看，棋局的進程卻是李世石應對有誤，進入到了AlphaGo的計算步調中。再下了幾手棋之后，AlphaGo已經優勢明顯。

　　第二盤棋的開局不久，AlphaGo就下出了職業棋手們普遍認為不妥的一手棋。席爾瓦稱其為反人類（unhuman）一手——第37手5路肩沖。觀戰的多數職業高手認為這不太成立，超出了職業高手們正常的行棋邏輯。

　　隨后的進程，這手棋的價值逐漸閃現，李世石又一次輸得毫無脾氣。

　　席爾瓦解釋道：“多數評論員都第一時間批評這一步棋，從來沒有人在這樣的情況下走出如此一著。在勝負已定之后，一些專業人士重新思考這一步，他們改口稱自己很可能也會走這一著。”

　　而在AlphaGo看來，當時只是一步很正常的走子選擇而已。

　　對于第一盤棋和第二盤棋，許多職業圍棋選手以及媒體分析都認為，AlphaGo逆轉取勝，但是在AlphaGo自身的價值網絡所做的實時勝率分析看來，自己始終處于領先。在AlphaGo獲勝的4盤中，AlphaGo系統自有的勝率評估始終都是領先李世石，從頭到尾壓制直到最終獲勝。

　　第三盤和第五盤，AlphaGo 都是在棋局剛開始不久，就已經取得了明顯優勢并持續提高勝率直到終局。與職業棋手根據經驗所做的勝負判斷不同，AlphaGo的自有勝率評估是基于一個價值模塊，做出對棋局勝負的預計。

　　這兩種判斷截然不同。當第五盤右下角的爭奪錯綜復雜時，AlphaGo選擇脫先，轉而落子在其他位置。不少職業棋手認為，AlphaGo在此犯錯并落后了，但AlphaGo的選擇卻是依據全局最優估計而做出的。

　　以幾局的成敗論，AlphaGo的這種判斷似乎更為準確。突破了職業棋手對圍棋的傳統的理解范疇，不再局限于棋手多年培養出來的圍棋直覺和套路定式，會選擇探索職業棋手正常不愿意考慮的招數。AlphaGo在人類棋譜學習的基礎上，還進行了大量的自我對弈，從而研究出了一些人類從未涉及到的走法。

相關鏈接：

李開復：阿爾法跌破眼鏡期待挑戰中國棋手

阿爾法機器人來海口了！能歌善舞還能做高難度動作

聶衛平:阿爾法狗后不敢再預測四川能贏CBA很刺激

[來源：新浪體育] [作者：] [編輯：符德銘]

·凡注明來源為“海口網”的所有文字、圖片、音視頻、美術設計等作品，版權均屬海口網所有。未經本網書面授權，不得進行一切形式的下載、轉載或建立鏡像。

·凡注明為其它來源的信息，均轉載自其它媒體，轉載目的在于傳遞更多信息，并不代表本網贊同其觀點和對其真實性負責。

熱點專題

2025中國網絡文明大會

阿爾法首次復盤人機大戰 自評等級分遠超柯潔

阿爾法首次復盤人機大戰自評等級分遠超柯潔