AlphaGo之父十年磨一劍
似乎在一夜之間,機器選手戰勝了人類最頂尖圍棋選手。但是,對于席爾瓦來說,人工智能圍棋耗時十幾年,最終不過是水到渠成。
作為AlphaGo的幕后團隊的技術主管,也是谷歌DeepMind團隊最重要的科學家之一,席爾瓦還身兼UCL大學的教職,是該校計算機系的教授,教授“強化學習”的課程。
席爾瓦是在加拿大阿伯塔大學獲得博士學位,師從世界上首屈一指的“強化學習”大師理查德·薩頓(Richard S.Sutton)研究強化學習算法,后來在另一座科技圣殿美國麻省理工學院從事博士后研究。
在攻讀博士以及博士后工作期間,席爾瓦一直致力于強化學習在圍棋人工智能上的研究。到英國UCL大學計算機系執教以后,他還經常拿圍棋作為授課的應用實例。??
席爾瓦的課程開始聽的人并非很多。三年前,我曾上過他的課程。有一次因故遲到了20分鐘,當時的教室里仍然可以找到座位。現在,隨著他加入到Deepmind團隊,尤其是他掌舵AlphaGo項目名聲大噪,他的課程也開始廣受歡迎,遲到的人基本上只能站著聽課了。?
加 入DeepMind之前,席爾瓦即已開始和CEO戴密斯·哈薩比斯(Demis Hassabis)共同研究強化學習。哈薩比斯在UCL拿到了神經學博士學位。兩個人都癡迷于游戲,哈薩比斯少年時曾經是英國國際象棋隊隊長,在13歲便已經獲得國際象棋大師的頭銜,青年時自創游戲公司,而席爾瓦則長期對圍棋情有獨鐘。
2014年初,在被谷歌收購之前,DeepMind即開始與UCL洽談,希望能買斷席爾瓦的工作時間。這樣可以保留他在大學的教職的同時,還可以讓他在DeepMind全心工作。
加盟DeepMind之后,席爾瓦成立了20個人的AlphaGo團隊,專門研究圍棋人工智能。匯集整個團隊的力量,他要求在技術研發的每一個環節上都追求極致。AlphaGo團隊成員就透露,有的智能模塊在谷歌團隊看來已經很完美了,但是席爾瓦卻仍認為不及格,離完美還差很遠。
長期專注于人工智能與圍棋項目,在技術方面追求極致,再加上勢大財雄的谷歌的團隊配合,最終成就了AlphaGo的驟然爆發。
復盤谷李大戰
復盤是職業圍棋選手經常做的一件事,他們相信總結過去一盤棋的經驗和教訓,可以提高自己的棋藝。
AlphaGo團隊也做了復盤,通過幾張幻燈片的形式,席爾瓦復盤了這5場比賽的勝負關鍵處,而在場的聽眾被禁止拍照。
第一盤的勝負關鍵處是,AlphaGo執白棋第102手打入黑空,職業高手們普遍認為這是一招險招,看上去李世石對此也早有準備。事后看,棋局的進程卻是李世石應對有誤,進入到了AlphaGo的計算步調中。再下了幾手棋之后,AlphaGo已經優勢明顯。
第二盤棋的開局不久,AlphaGo就下出了職業棋手們普遍認為不妥的一手棋。席爾瓦稱其為反人類(unhuman)一手——第37手5路肩沖。觀戰的多數職業高手認為這不太成立,超出了職業高手們正常的行棋邏輯。
隨后的進程,這手棋的價值逐漸閃現,李世石又一次輸得毫無脾氣。
席爾瓦解釋道:“多數評論員都第一時間批評這一步棋,從來沒有人在這樣的情況下走出如此一著。在勝負已定之后,一些專業人士重新思考這一步,他們改口稱自己很可能也會走這一著。”
而在AlphaGo看來,當時只是一步很正常的走子選擇而已。
對于第一盤棋和第二盤棋,許多職業圍棋選手以及媒體分析都認為,AlphaGo逆轉取勝,但是在AlphaGo自身的價值網絡所做的實時勝率分析看來,自己始終處于領先。在AlphaGo獲勝的4盤中,AlphaGo系統自有的勝率評估始終都是領先李世石,從頭到尾壓制直到最終獲勝。
第三盤和第五盤,AlphaGo 都是在棋局剛開始不久,就已經取得了明顯優勢并持續提高勝率直到終局。與職業棋手根據經驗所做的勝負判斷不同,AlphaGo的自有勝率評估是基于一個價值模塊,做出對棋局勝負的預計。
這兩種判斷截然不同。當第五盤右下角的爭奪錯綜復雜時,AlphaGo選擇脫先,轉而落子在其他位置。不少職業棋手認為,AlphaGo在此犯錯并落后了,但AlphaGo的選擇卻是依據全局最優估計而做出的。
以幾局的成敗論,AlphaGo的這種判斷似乎更為準確。突破了職業棋手對圍棋的傳統的理解范疇,不再局限于棋手多年培養出來的圍棋直覺和套路定式,會選擇探索職業棋手正常不愿意考慮的招數。AlphaGo在人類棋譜學習的基礎上,還進行了大量的自我對弈,從而研究出了一些人類從未涉及到的走法。
·凡注明來源為“海口網”的所有文字、圖片、音視頻、美術設計等作品,版權均屬海口網所有。未經本網書面授權,不得進行一切形式的下載、轉載或建立鏡像。
·凡注明為其它來源的信息,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
網絡內容從業人員違法違規行為舉報郵箱:jb66822333@126.com