德学院

在「德学院」App中打开

详情

扑克机器人Tartanian7颠覆扑克理论的挑战

2025.07.06 17:21:32 发布

关于"扑克机器人"的话题,不仅仅在扑克玩家的圈子里引起了关注和兴趣,正如《世界报》最近的一篇文章所证实的那样。有了Tartanian7,新的类别冠军,该行业可能会取得重大进展。

机器人单挑
单挑!

"扑克机器人的科学还处于萌芽阶段",纽约时报在2011年写道。当时扑克之星和全速扑克的顾问Darse Billings也证实了这一说法:"大多数机器人都很糟糕。超过90%的机器人都在赔钱"。

 

近年来,一些事件表明,开发者已经取得了进步。2010年7月,PokerStars.com冻结了十几个账户,这些账户在八百万手牌中积累了50000美元,从NL25到NL200。去年,瑞典运营商Svenska Spel宣布关闭了14个涉嫌欺诈性地积累了28万美元收益的账户。而最近,iPoker网络也面临着机器人带来的问题。

 

上周,《世界报》在一篇题为《人类仍然击败机器的游戏》的文章中简要地探讨了这个问题,指的是加里·卡斯帕罗夫面对深蓝的遭遇。关于扑克的那一段当然提到了先前的极光。2007年7月,由加拿大阿尔伯塔大学的研究人员开发的这款软件与菲尔·拉基和阿里·埃斯兰米进行了较量。这四场比赛,轮流给玩家和机器提供相同的起始手牌,结果对极光来说喜忧参半:一平、一胜、两负。

 

一年后,经过显著改进,这款软件在与六名玩家的对决中取得了胜利,以三胜、一平、两负的成绩获胜。然而,第二轮比赛的媒体报道非常有限。极光的机会已经过去了,机器阵营的一个新代表已经出现:超级计算机沃森,由IBM设计,是危险边缘(游戏的目标是根据答案找到问题)的专家,也是一个闲暇时的扑克迷。

 

当时,IBM的目标是超越简单的概率计算,将对人类行为的实际适应融入机器的思考中。几千万美元的投资之后,这家跨国公司的玩具已经远离了问答游戏和扑克比赛,希望转向更符合时代潮流的应用。因此,沃森很可能不会成为扑克星球上的深蓝。

 

对于开发者来说,对抗并击败扑克玩家代表着一个巨大的挑战。在无限注模式下,"无限的下注使算法复杂化",因此也增加了对最佳策略的追求,《世界报》证实了这一点。多玩家游戏也带来了问题,正如沃森项目的主要人物之一在2011年指出的那样:"对于有限注的双人德州扑克,电脑相当不错[...]但是一旦加入第三个玩家,就会陷入恐慌"。虽然数学理论上在决斗中就足够了,但增加一个新的游戏伙伴会将"好牌"的概念抛到脑后:"三个玩家的策略变得相互依赖,现在更多地依赖于统计和心理方面的考虑"。

 

因此,逻辑上,计算机的小天才们转向了单挑游戏。在Card Player的一篇引人入胜的两部分文章(第一部分;第二部分)中,Card Player今天介绍了该领域的新恐怖人物:Tartanian7。Tartanian——或者至少是它的创造者图马斯·桑德霍尔姆——远不想融入人们不时在低级别比赛中遇到的那些小喽啰之中,他的目标是彻底改变扑克理论,并将新一代的德国和斯堪的纳维亚鲨鱼降级为过时的存在。

 

卡内基梅隆大学(匹兹堡)的教授图马斯·桑德霍尔姆利用其"在博弈论和优化算法方面的渊博知识",将Tartanian7打造成"终极机器人"。或者换句话说,"扑克历史上最好的单挑玩家"。而且,这些雄心勃勃的言语不一定会被怀疑地接受,因为这位科学家并非等闲之辈,甚至展示了一些令人印象深刻的功绩。他的弟子在今年夏天轻松赢得了由人工智能发展协会组织的第九届年度锦标赛的两个NLHE单挑比赛。

 

桑德霍尔姆对这一双重成功感到兴奋,他向Card Player解释说:"对手的水平不一样":"我认识现在市场上的机器人。有些参加了比赛,但坦率地说,它们并不出色"。在这次著名的年度锦标赛中,共进行了5000万手牌。共有六个类别,其中两个是NLHE单挑:

  • 第一个采用经典锦标赛的形式,在每场比赛结束后淘汰表现最差的机器人;
  • 第二个更像是一个资格赛,每台机器人之间进行比赛,然后淘汰排名靠后的机器人,然后剩下的机器人之间进行新一轮的比赛。
  • 在这两种情况下,两台机器的记忆都会在第一场对决结束时被擦除,然后第二场对决开始,交换角色并使用相同的牌组合。

 

最终,Tartanian7在两场比赛中都完全碾压了对手,在没有例外的情况下击败了每一个对手。这种水平差异的关键是什么?根据科学家的说法,这是一种纯粹的算法方法:"所有机器人都是从我们2005年与我的一个学生安德鲁·吉尔平一起提出的相同基础开始开发的。你从一个抽象算法开始,生成一个更小但战略上相似的博弈基础,然后可以使用一个均衡搜索算法,从而产生一个纳什均衡,或者接近于纳什均衡,用于一个更小的博弈。NLHE单挑本身对于纳什均衡来说过于复杂。因此,我们解决了一个更简单的问题,然后使用一个与原始游戏规模匹配的算法"。

 

但要如此碾压竞争对手,理论是不够的。自2005年该项目启动以来,Tartanian7需要数千小时的工作,由越来越多的学生完成。去年,有四个人全职致力于该软件的开发。这样的投资是否足以很快地与人类玩家对抗?"到目前为止,不可能知道最好的程序,也就是我们的程序,是否会统治最好的职业玩家。我想会是这样[...]纳什均衡是不可战胜的。但由于我们只是接近它,我们的机器人理论上可以被击败。即使我认为很难找到它的漏洞"。

 

然而,桑德霍尔姆承认,在没有人类与机器之间的比赛的情况下,怀疑仍然是允许的。无论如何,这个问题不一定在他的优先事项之列。这位科学家看得更远,并且相信在未来,扑克或其他学科的学习将会在机器人的支持下进行:"这个软件告诉人们关于如何玩扑克的知识是如此之多,简直是荒谬。它的玩法与人类完全不同。人类从同类、他们的书、他们自己的玩法中学到了东西......但这并不是最佳策略。相反,这个机器人从未见过人类玩过。相反,它建立了自己对游戏的看法,并且它的结论与职业玩家的结论大相径庭"。

 

这位教授甚至举了一些例子。如果Tartanian不一定会证实信息再加注的合理性,那么它的一些方法似乎确实会引发争论。例如关于下注大小的问题:"玩家通常使用有限的金额范围。我们的机器人则不然,它在特定情况下有时会下注远低于,有时远高于人类。将自己限制在两三种类型的金额上,可以让玩家不透露他们手牌的强度。但机器可以毫无顾忌地这样做,因为它完美地平衡了它的下注"。据他介绍,这个例子也适用于按钮位置的limp:"这是玩家经常批评新手或业余爱好者的做法,但机器人却毫不犹豫地这样做"。

评论 0 条

还没有评论,快来发表第一个评论吧
还没有评论,快来发表第一个评论吧

德学院官方

德学院官方

  • 首页
  • 论坛
  • 课程
  • 消息
  • 我的