2017年5月24日,江鑄久(左一)在烏鎮與AlphaGo之父哈薩比斯(Damis Hassabis)先生交談。(作者供圖/圖)
(本文首發於2017年6月8日《南方周末》,原標題為《AlphaGo老師》)
2017年5月30日,我去香港鳳凰衛視,參加錄制鏘鏘三人行的節目,談AlphaGo對柯潔的人機大戰第二季。想起去年3月,李世石和AlphaGo的第五局時,我也是一路奔到香港,邊和文濤聊著圍棋與人工智能,邊掛念著戰況。
一年多過去,AlphaGo從一開始的職業棋手都覺得下不過李世石,到現在成為很多人心中的圍棋上帝,這世界變化得太快了。
還記得對李世石的第一局,AlphaGo贏了之後,整個圍棋界都震動了。芮乃偉那時候就非常難過。我倒還好,因為賽前我已預測AlphaGo會贏,電腦戰勝人類的時刻就要到來。之所以這麽認為,是因為二十多年前,我在美國時就接觸過一些立誌開發圍棋人工智能的IT人士,還給他們當過參謀。之後,我也一直關註著這方面的發展。圍棋人工智能的發展十分緩慢,早在1990年代,IBM的深藍就打敗了國際象棋特級大師,但是電腦解決不了圍棋海量的計算,解決不了圍棋里“虛”的東西。當所有的智力遊戲都被攻克時,圍棋依然一花獨放。不過,看了2016年初Google發表的AlphaGo 5∶0戰勝歐洲冠軍樊麾的棋譜,我覺得我們將要見證歷史了。
但是我的預想圖是AlphaGo會贏一至兩盤,沒想到他第一局就贏了,而且贏得非常漂亮,也沒想到最後4∶1的結果,居然是李世石只贏了一盤。當然那是一盤偉大的勝局,李世石在形勢不利的情況下弈出神的一手,引出了AlphaGo的bug。
從那次人機大戰的整體看,AlphaGo下得漂亮。比如第二局黑37手的尖沖,令人蕩氣回腸,感覺是吳清源老師回來了。吳老師曾說他200歲在宇宙中還要下棋。那麽,這是AlphaGo將吳老師的思想傳遞回來了吧?我非常感動。
2017新年AlphaGo再度出山,以Master的網名在各大圍棋對弈網站下了60盤棋,全勝。我認真研究了這60盤棋並寫下打譜心得給我的學生們學習。知道孩子們要理解這些還有點早,但我願意埋一顆種子,期待在他們的心中慢慢發芽。
5月末,人機大戰第二季在烏鎮開戰。
此次人機大戰的勝負基本是沒有懸念的,當然我們希望柯潔贏,但是60局所顯現的AlphaGo太強大了。因此,奔向烏鎮時,我期待看到AlphaGo下出更加神奇的,甚至是我們職業棋士也看不懂的招法,期待看到人機之間更加精彩的對抗。
三番棋分別在5月23、25、27日進行。大會場里,屏幕上除了對局的進程外,還可以看到柯潔對局中的表情和動作,現場感很強。
第一局,AlphaGo執白勝1/4子,在中國規則里是最小的差距,但棋盤上的內容是一面倒的。柯潔似乎有點拘謹,AlphaGo一直掌控著局勢。
第二局,感覺柯潔放開了,下得非常出色,成功地把AlphaGo拖入混戰中,有一度很有機會,可以說是逼AlphaGo使出了渾身解數。據賽後公布的數據,AlphaGo認為前100手是雙方最善。雖然後半盤柯潔弈出問題手,棋局戛然而止。但是那一局棋,令許許多多的觀眾熱血沸騰。
27日第三局,澎湃新聞開通在線直播,我們和IT專家、紐約大學教授張崢老師一起講解。柯潔前半盤弈出問題手,之後奮力拼搏,一度使形勢非常接近,但還是未能翻盤。
3∶0,這個結果並不意外。那麽,看一場意料之中的賽事,看人類敗於機器,有意思嗎?有。
有柯潔近乎悲壯的對AlphaGo的死磕,有AlphaGo在棋盤上展現出來的奇思妙想,也有人機聯手等好玩的賽事,更有DeepMind團隊的講座和互動,這次的烏鎮圍棋峰會內容豐富精彩,我們站在了歷史的節點上。
24日那天是論壇。DeepMind CEO哈薩比斯(Damis Hassabis)先生和AlphaGo技術負責人席爾瓦(David Silver)先生的講座非常精彩,令觀眾了解了AlphaGo是如何依靠他們的策略網絡和價值網絡進行剪枝和判斷的。但是最令人震撼的是席爾瓦先生在講話中說,AlphaGo Master經過這一段的深度學習,已經比同李世石下棋時的版本進步了Three Stones。聽到這個說法,柯潔立刻在微博上發表了“天哪”的感嘆。
三子啊,真是令人難以置信。午餐時我們特地去找哈薩比斯先生求證。哈薩比斯先生首先肯定了這Three Stones就是三個子,而不是三目(Three points),然後解釋說這是系統自己測定的,按照“AlphaGo李”同“AlphaGo柯”自己對下的勝率估算出的實力差距,並不說明和人類下也能讓三子。不過,他又補充了一句:“也許是讓兩子……”
嗯,這也已經足夠令人震驚了。想起今年3月份我到日本的時候,碰到了武宮正樹老師、趙治勛老師和小林光一老師,他們都不約而同地認為如果是60連勝,按照棋份來說,那是兩個子的棋份了。
哈薩比斯先生還說,他們已經修複了對李世石時的bug,即使形勢不利(基本不太可能),AlphaGo也不會亂來了。趁此機會,我提出,希望能多給我們看一些AlphaGo左右互搏的棋譜。哈薩比斯先生答應考慮一下。
下午,一不小心去了Jeff Dean的記者會(後來才知道他有多牛,據說谷歌員工認為谷歌搜索驚人的速度都歸功於他)。會後,主辦方好意安排我和他聊幾句。我問他,AlphaGo的開發會一直繼續下去嗎?有沒有目標?他嚴肅地回答這個要去問DeepMind團隊……好吧,那我再問,你覺得人工智能,比如AlphaGo,在對孩子的教育方面有些什麽幫助?Jeff很認真地說,人工智能會很好地啟發孩子們的創造力……
26日上午,大舞臺上是配對賽,古力和AlphaGo對陣連笑和AlphaGo。雖然是表演賽,但大家相當期待,都想看人和電腦會配合成什麽樣子。而且,如果是人機對戰,機器優勢了,就會挑穩妥的路走,不求最好,只選擇勝率最高的一手。所以我們預想,到了後半盤,是不是可以由人類高手領著AlphaGo下出最善的著手呢?
很有意思的一盤棋。布局,執白的連笑弈出問題手,黑棋優勢。但是緊接著黑方的AlphaGo下了一步無比堅實的自補,我相信任何一個職業棋手都是不會往那里想棋的。是不是阿老師覺得優勢了呢?我們笑說,這一步似乎把古力的調子打亂了。
據說後臺數據黑棋勝率曾到達75,古力下了某一手後掉到60多一點,再後來又掉到45……好玩的是有位女棋手在朋友圈轉了這條消息,然後寫道:“我想說,是時候讓你們體會體會女棋手在混雙賽中的壓力了。”確實,一到混雙賽,女棋手常常是戰戰兢兢的,怕下錯了。局後古力聽了大笑,說幸虧阿老師不會說話,不然我肯定要受責備了。這個角色轉換令人莞爾。
後半盤,黑棋處於劣勢了,黑方AlphaGo要認輸,古力不同意。局後古力說,他和連笑商量好了,不管哪一方的電腦要求認輸,都要拒絕。結果,阿老師似乎是發脾氣了,連續損目,古力只好也拿起牌子來,示意認輸,他的同伴爽快接受。這麽看來,劣勢情況下,要率領AlphaGo繼續兢兢業業地收官,不是一件容易的事情。
連笑局後的感想是,和阿老師配合心里很有底。問為什麽,答中盤時覺得形勢不好,但是同伴仍然不緊不慢地很穩健,所以心就定了,想是不是也沒有那麽糟。一等一的高手形勢判斷要依仗阿老師了,這又是配對賽有意思的地方。真希望這樣的對局多來幾盤,可以好好欣賞一下人機配合的各種有趣。
下午是陳耀燁、周睿羊、時越、羋昱廷、唐韋星五位世界冠軍對陣AlphaGo。一個長條桌上擺著棋盤,四個人坐在後面,周睿羊在另一面和大家一起討論,他轉過身就是比賽用的正式棋盤,商量定了就由他在盤上落子。AlphaGo橫空出世後,周睿羊最先采用阿老師的很多下法,贏了不少棋,因此得了一個“阿爾法羊”的美稱。
賽前,大家都不看好這場所謂的群毆,因為雙方各兩個半小時的用時,對人類一方實在是太少了,一個人下都有點緊巴巴的,五個人稍一討論,十來分鐘就沒有了,何況對面是一秒鐘能算百萬步的阿老師,更加覺得有壓力了。果然,大盤講解的古力、王磊等一直在為他們擔心:還不下啊?時間又過去十分鐘啦。想想看,五個棋風不同的高手一起討論,哪能那麽快就達成一致呢?所以,我們在屏幕上,總是看到阿爾法羊在笑,等著大家統一意見的樣子。
中盤時,AlphaGo有一個靠然後小尖的連環手筋,是屬於讓人大吃一驚的思路。但是據說研究室里柯潔先於AlphaGo擺出了這兩步棋,不禁感慨,柯潔真是最適合大戰AlphaGo的人啊!
最後小官子階段,是AlphaGo小勝的局面,讀秒後替換周睿羊坐到棋盤前的唐韋星在白棋空里二二點了一手。這是一步騙招,完全沒有棋的地方,但是阿老師很穩健地補了一手,損目了,當然這和勝負無關。五個年輕的世界冠軍笑得不可開交,有一張他們捂著臉撐著頭笑著的照片瞬間刷爆了朋友圈。這步棋是一種測試,AlphaGo應錯了。不過這不算什麽。我們非常想知道,如果補一手會輸,阿老師還會像實戰那樣走嗎?當然,答案其實是很明顯的。
27日第三局結束後的新聞發布會上,哈薩比斯先生宣布AlphaGo將退出圍棋賽事!DeepMind團隊同時宣布,將陸續公布AlphaGo左右互搏的50局棋譜,今天先公布10局。我看了幾個片段,那真的是有著許多可以顛覆圍棋觀的內涵,谷歌的武功秘籍公開了。
非常感傷,一段傳奇就要這樣離開嗎?
回味這場“絕唱”,在傳承方面,AlphaGo吸收了很多前輩高手的精華並予以再創造。在棋局中,我看到它的很多招法有當年吳清源老師的影子,心里非常感動。也許,上天是通過AlphaGo映照出了很多職業棋手在歷史上那些讓人難忘的場景,那些可歌可泣的精神。
三歲的AlphaGo打敗了人類幾千年的進化。人類棋手要戰勝電腦已經不可能了。但是,通過學習,我們可以在自身的基礎上獲得提高。我想,生活在現代的職業棋士是幸運的,阿老師幫助我們突破自身的局限,使我們能夠以更加自由的心靈和開闊的視野去面對棋盤,也更加能夠體會圍棋的美好。