ZKIZ Archives


德撲“人機大戰”爭奪200萬獎金,李開複:人類這次還有10%勝率

來源: http://www.iheima.com/zixun/2017/0405/162387.shtml

德撲“人機大戰”爭奪200萬獎金,李開複:人類這次還有10%勝率
黑智黑智

德撲“人機大戰”爭奪200萬獎金,李開複:人類這次還有10%勝率

但是,這或許是人類最後一次戰勝人工智能的機會了。

AlphaGo戰勝了人類圍棋國手。今年1月,AI程序擊敗了德撲人類頂級職業玩家。面對人工智能,人類還有多少次可以戰勝的機會?

明天,亞洲的頂尖德撲牌手將再次迎戰人工智能。這次出戰的人工智能“冷撲大師”,是基於卡內基梅隆大學開發的Libratus,就是在1月在美國賓夕法尼亞,擊敗了四名頂尖人類高手,一舉獲得了20萬美元將近和177萬美元籌碼的德州撲克人工智能系統。

它將面對的是,是華人牌手“龍之隊”,由2016年世界德州撲克大賽WSOP金手鏈冠軍得主、常春藤資本合夥人杜悅領軍,戰隊成員由許朝軍、張淮、童舟、朱亞希、王天建六位撲克玩家圈內熟知的高手組成。這次比賽由創新工場、海南生態軟件園聯合主辦。

“勝率大約有10%。”杜悅在出征前坦承,“我希望中國龍之隊是最後一支能夠戰勝人工智能的團隊。”

“如果人類還有戰勝AI的可能,也許就是這次。”創新工場CEO李開複說。“當下次AlphaGo對戰柯潔,我認為,人類的勝出概率,基本為零。”

這次賽事,將在海南進行5天,長達45小時。獲勝一方,將獲得200萬元的獎金。而當人類面對機器已然勝算逐步下降的今天,這場人機對戰,又將代表什麽樣的意義?

突破“不完美信息”遊戲

創新工場之所以參與主辦這一賽事,或許與李開複的“人機對弈”情結息息相關。1988年,李開複在母校卡內基梅隆大學開發了“奧賽羅”,成為第一個擊敗黑白棋世界冠軍的人機對弈系統。而這次,他不僅為活動牽線,更為Libratus專門起了一個中文名“冷撲大師”。

2016年,卡耐基梅隆大學的Tuomas Sandholm教授曾領導開發了一個打撲克的程序Claudico,但是在一場面對數位高手的比賽中慘敗。這也是Libratus的前身。2017年,Sandholm 教授聯同Noam Brown博士開發完成了Libratus。

德撲和AlphaGo所擅長的圍棋不同。此前的20年里,被人工智能所攻克的圍棋、國際象棋和西洋雙陸,都是“完美信息”遊戲。也即是,所有玩家在遊戲中,能夠獲得公開和對稱的確定信息。遊戲中需要作出的決策點的數量,決定了機器的計算量。

而與之相比,德撲則是“不完整信息”遊戲。其中包含了更多的隱藏信息,每個玩家掌握的信息都是不對稱的,他只能看到自己的牌,卻不知道對手的牌,需要根據直覺推測對手手牌,選擇下註和放棄,並判斷對手的打法,想得到理想化的戰略,是非常困難的。因此,“不完整信息”博弈,就成為難以攻克的計算機難題。

冷撲大師Libratus,基於在匹茲堡超級計算中心大約1500萬核心小時的計算,用算法分析德撲規則,預測所有步驟的勝率,來進行自己的下一步。和AlphaGo用大量棋局做訓練不同,它的策略並非基於專業玩家的經驗,沒有用專業牌局進行神經網絡訓練,而是用隨機生成的牌局(隨機產生公共牌、底池籌碼、玩家拿牌概率)和嘗試性的動作帶來的結果(在隨機生成的輸入情況下模擬玩家跟牌後的結果)來作為訓練數據。Libratus還采用了博弈論,它通過納什均衡來計算如何應對對手的招數,通過平衡風險和收益,對自身的下一步進行修正,以期達到收益最大化。其程序名Libratus,就是來源於拉丁文“制衡”。

也因此,德撲被認為是人類博弈心理、智商和情商的高度體現,其中信息具有不透明性和不確定性,可以“詐唬”,甚至還帶有一定的運氣成分。打德撲所需的推理能力和心理戰術,是機器很難模仿的。也正因此,Libratus之前取得的成績,才在人工智能領域引起了巨大關註。

而在李開複看來,現實中,這種“不完整信息”才是常態。“世界上大部分的決策問題、商業問題,都不是單純靠強力的搜索和人工智能就可以解決的。”

高“情商”的AI

啟動2


根據賽制,在4月6日-10日巔峰表演賽期間,中國龍之隊的六位牌手每人同時打兩手牌,進行每天上下午兩場共10小時的人機對戰,全程估計長達45小時達到36,000手牌。

表演賽為求降低發牌中的運氣因素,機器人將采用複式對稱發牌,兩兩成對的牌手其中一人將拿到與配對牌手對打的機器人底牌,因此六名牌手將拆分於兩個房間和冷撲大師對陣,比賽過程中還必須確保配對牌手彼此不能碰面交流。4月10日完賽時,將以人機各自積累的總計分牌數計算成績,決定最終200萬元獎勵花落誰家。

對於這次的德撲“人機大賽”,他和杜悅仍然“大膽”地把人類勝率預測為大約10%。“第一個畢竟這次的表演賽不如上次的對決那麽長,這次是36000手牌,上次是12萬,運氣成分會增加一些,人類的機會會有一些。第二,這次出戰的‘龍之隊’有計算機專業的學霸,他們對於計算機的理解更為深刻。”盡管如此,他也仍舊認為,遲早機器在符合以下三個前提的領域里,將全面戰勝人類:

第一,有海量的數據;

第二,數據有標準;

第三,單一領域。

“人工智能從AlPhaGo和冷撲大師所提煉出來的想法、技術和先進已經遠遠超過人類。”李開複說。“我們可以把AlphaGo理解為高‘智商’,但是冷撲大師是高‘情商’的。而且這樣的技術可以在很多商業的領域里面應用,因為大部分人類的信息都不是彼此公開的。”

同時,李開複表示:“另外一點就是,冷撲大師並非運用深度學習,而我們會由此認識到,未來會有更多的科學家發明更多的技術,讓AI給人類帶來更多的價值。”截止到目前為止,創新工場已經投資了Face++、馭勢科技、小魚兒科技等人工智能創新公司,但在李開複看來,更多地垂直領域的人工智能應用,仍將出現。他預計,現今這套人工智能撲克程序背後的模型,將適用於需要用到戰略推理和多方談判的場景,從企業談判、商務談判、外交談判、甚至到生活面的房屋買賣談判,十年內都將會部分或全面被人工智能所取代。

值得一提的是,這次表演賽,將在海南生態軟件園落地。而海南也將借此啟動人工智能產業基地。據了解,騰訊、樂視、360等1500家企業,也已經在海南生態軟件園落戶。助理總經理唐堯表示,人工智能產業得到了海南省的高度重視和扶持,海南生態軟件園也配套專項政策、政務及服務,積極布局人工智能產業。看來,業界對海南的認知,也在重構。

人工智能李開複德撲大賽Libratus
贊(...)
文章評論
匿名用戶
發布
PermaLink: https://articles.zkiz.com/?id=244310

Next Page

ZKIZ Archives @ 2019