微軟麻雀AI難度更勝圍棋 實力媲美頂尖棋手

科技 09:00 2019/09/25

分享:

微軟(Microsoft)亞洲研究院開發的麻雀AI系統Suphx(超級鳳凰),成為首個在國際知名專業麻雀平台「天鳳」上,榮升十段的AI系統,並稱實力媲美頂尖人類選手。(受訪者提供圖片)

人工智能(AI)發展一日千里,前年Google研發的圍棋AI就震撼全球,而近日另一科企微軟(Microsoft)就研發專攻麻雀遊戲AI,到底麻雀AI優勝之處在哪裡?能力是否能媲美人類?

早前微軟(Microsoft)亞洲研究院開發的麻雀AI系統Suphx(超級鳳凰),成為首個在國際知名專業麻雀平台「天鳳」上,榮升十段的AI系統,並稱實力媲美頂尖人類選手。

微軟亞洲研究院副院長劉鐵岩博士接受專訪表示,麻雀AI要克服三大挑戰,因為麻雀遊戲屬於非完美信息遊戲(Imperfect Information Game),因為在打牌過程中有大量隱藏信息,有高度不確定性。(受訪者提供圖片)

微軟亞洲研究院副院長劉鐵岩博士接受專訪表示,麻雀與其他棋類遊戲不同,建立的AI亦各異。「相比信息完整、邏輯性強的象棋、圍棋等棋類,麻雀玩家得到的信息不對稱,屬於非完美信息遊戲(Imperfect Information Game),因為在打牌過程中有大量隱藏信息,有高度不確定性。」他直言,僅靠運算力無法根本解決問題,需要更強的直覺、預測、推理、和模糊決策能力。

研發麻雀AI三大挑戰

與象棋、圍棋、德州撲克等棋牌類遊戲相比,麻雀具有更複雜隱藏信息,難度亦更高。劉鐵岩表示,總體而言,麻雀AI主要面臨三大挑戰:巨大的狀態空間、非完美信息博弈、以及複雜獎勵機制。

與只有52張牌的德州撲克相比,136張麻雀牌組合可能性更多。同時,麻雀中同一個玩家兩次出牌之間,夾雜其他3個玩家的出牌和自己摸的底牌,均會出現不同局面。

而麻雀中,4位玩家出牌順序亦不固定,任意一位玩家『吃碰杠』都可能使出牌順序突然改變,導致遊戲樹不規則、且動態變化。這些特點使麻雀很難直接利用AlphaGo等棋盤遊戲AI常用的蒙特卡洛樹搜索算法。

象棋和圍棋屬於完美信息遊戲,玩家可看到棋局對方落子。麻雀則存在大量隱藏信息。具體而言,麻雀中每個玩家有13張手牌,另外還有84張底牌。對玩家而言,他只知道自己手裡的13張牌和之前打出的牌,無法知道別人手牌及未翻開的底牌,最多可有超過120張未知牌。眾多未知信息使麻雀難度非常高。由於隨機性太大,玩家在出牌決策中估計對方玩家手牌、底牌等不可見的牌,也無法避免不確定性對於遊戲走向的影響。這將對 AI 模型的訓練帶來很大挑戰。

訓練麻雀AI的難度比起圍棋AI更高。(受訪者提供圖片)

日本麻雀規則是「無役不能和牌」,多樣的特殊牌面構成複雜的「役種」和番數計算規則。一輪遊戲共包含8局,單局得分與役種和番數相關,最後根據8局的得分總和進行排名,來形成最終影響段位的點數獎懲。因此有麻雀高手會策略性輸牌,例如在第8輪時如果A玩家已經大比分領先第二名,他可能會故意放炮給排名第四的玩家,來防止總分被排名第二的玩家反超,保證自己在最終結算時勝出。這類麻雀策略為AI帶來額外挑戰,AI亦需審時度勢,把握進攻與防守時機。

自我博弈 自我進化

微軟的麻雀AI Suphx在訓練過程中採用了自我博弈技術,同時利用和人類選手的對戰來提高自己水準。今年3月登陸天鳳平台以來,Suphx就與人類選手對戰超過5000場。「平衡攻防方面,Suphx表現出更勝頂尖人類玩家,能戰略性地完成短期損失與長期收益之間平衡,根據已有模糊信息快速決策。」

劉鐵岩亦透露,麻雀AI背後是深度強化學習技術,對於規則並不敏感。

儘管中國麻雀跟日本麻雀有差別,只要把相應準則嵌入強化學習流程,AI能自動學習出好的解決方案,因此系統可以完全可以應付不同類型麻雀遊戲。

記者:李彥煒

緊貼財經時事新聞分析,讚好hket Facebook 專版