下棋、玩游戏,在与人类的博弈中,人工智能(AI)正在不断成长。近日,英国DeepMind公司的AI智能体DeepNash,就在西洋陆军棋(Stratego)中达到了专业级人类玩家的水平。该成果12月1日发表于《科学》。
“近年来,AI掌握本质不同的游戏的速度相当惊人。”美国密歇根大学计算机科学家 MichaelWellman表示,Stratego和“强权外交”这两款游戏大不相同,但它们都极具挑战性,与此前AI已经掌握的游戏也截然不同。
Stratego是一款需在信息缺失情况下进行战略思考的棋盘游戏,类似于中国的军棋。它要比此前AI掌握的国际象棋、围棋或扑克复杂得多。在游戏中,双方各有40枚棋子,且彼此看不到棋子的真实“身份”。双方轮流移动棋子,来消灭对手的棋子,最终夺得对方军旗或消灭所有能动的棋子的一方获胜。因此,玩家需要进行战略部署、收集信息,并与对方博弈。
一局Stratego游戏中会有10535种可能的布局。相比之下,围棋的布局有10360种可能。此外,在Stratego中,AI需要推理对手超过1066种部署策略,这使德州扑克中初始的106种可能情况相形见绌。所以Perolat和同事开发了DeepNash,该命名致敬了提出纳什均衡的美国数学家约翰·纳什。
纳什均衡是博弈论中一种解的概念,指满足以下条件的策略组合:任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变),都不会提高自身的收益。
DeepNash将强化学习算法与深度神经网络相结合,以找到纳什均衡。强化学习包括为游戏的每个状态找到最佳策略。为了学习最佳策略,DeepNash已经与自己进行了55亿次博弈。
“强权外交”是一个最多可由7位玩家参与的游戏,每位玩家代表第一次世界大战前欧洲的主要力量,游戏目标是通过移动部队控制供应中心。重要的是,该游戏需要玩家间进行私人交流和合作,而不是像围棋或Stratego那样进行双人博弈。
“当进行超过两人的零和博弈时,纳什均衡思想对游戏就不再有用了。”Brown说,他们成功训练出了AI——Cicero。在11月22日发表于《科学》的论文中,该团队报告称,在40场游戏中,“Cicero的平均得分是人类玩家的两倍多,在玩过一场以上游戏的参与者中排名前10%”。Brown认为,可以与人类互动并解释次优甚至非理性人类行为的游戏AI,可以为其在现实世界的应用铺平道路。
(据《中国科学报》)