德学院

在「德学院」App中打开

详情

Libratus人工智能在扑克牌局中的表现与展望

2025.07.06 17:19:50 发布

在接受Card Player采访时,Libratus的其中一位开发者估计,这台机器“可能在两年内就能在六人牌桌上击败人类”。 电脑之间的年度扑克锦标赛也将在此次比赛中增加这一类别。

人工智能

过去两周,Libratus的胜利引发了重要的媒体关注,这一点很难忽视! 人工智能在扑克牌桌上的实力展示几乎被全面审视。

 

首先,专业媒体经常小心翼翼地试图淡化这项科学进步可能对我们日常在线扑克游戏产生的影响。例如,《扑克新闻日报》正确地指出,如果没有超级计算机的支持,Libratus的性能是不可能实现的,而超级计算机的运行成本是惊人的。该报还补充说,在匹兹堡举办的这次活动仅涉及单挑赛的特殊形式,这与普通游戏(每手牌后计数器重置为零、机器有很长的思考时间、一旦下注就系统地停止比赛……)有许多不同之处。

 

而主流媒体则不太关心这些考虑,并力求看得更远。例如,《卫报》的记者对可能出现的偏差表示担忧,并呼吁对人工智能的发展进行监管。其他报纸则表现出更乐观的态度,并预见到在“大脑 vs 人工智能”比赛中突出的进展中的医学进步。ExtremeTech就是这种情况,它转载了Sandholm教授的一篇文章,提到了有一天可能会看到Libratus的后代陪伴人体对抗某些病毒的可能性。

 

同一位Tuomas Sandholm也是Quartz一篇引人入胜的文章的焦点人物,该文章解剖了Libratus,并研究了控制其决策的三个模块:

第一个模块学习理论并寻找适合所有情况的策略。第二个模块是在一手牌中做出所有决定的模块。第三个模块通过记录和分析每个新信息而不断更新。

虽然第一个模块的作用仅仅是知道扑克牌桌上发生了什么,但第二个模块负责处理对手牌中出现的不确定性。模块1类似于其他所有人工智能:它通过重复各种情况来痛苦地学习。而模块2让Libratus能够理解未知。

Noam Brown et Tuomas Sandholm
Noam Brown 和 Tuomas Sandholm

读者了解到,模块2的任务是将其对手的决定纳入其思考,完善对手的范围,最终在turn和river上做出决定。至于被认为是学习模块的模块3,有时它也能发挥关键作用。例如,开发人员将其归因于它能够非常迅速地纠正人类面对某些特定下注金额时发现的漏洞。

 

但本周最有趣的这篇文章也许是Noam Brown接受Brian Pempus为Card Player采访的这篇文章。Sandholm-Brown二人组的另一半在从Claudico过渡到Libratus的过程中发挥了重要作用,在此过程中,BabyTartanian8于2016年1月赢得了年度计算机扑克比赛的冠军。在这篇采访中,他回顾了上个月的比赛,并表达了他对未来几个月工作重点的看法。摘录如下:

我们对结果感到惊讶。在比赛之前,我们测试了Libratus与之前的机器人。它以平均每100手牌赢10到12个大盲注的优势击败了Claudico。这比人类在2015年获得的结果略好。因此,我们认为我们略有优势,但并没有真正期望看到这样的展示。

实际上,我们没有衡量到一些细节的重要性,这些细节让人类玩家获胜。他们发现了Claudico的弱点并加以利用。例如,Claudico的limps的加注策略取得了优异的成绩,并占其收益的很大一部分。Libratus之所以能够压倒人类玩家,是因为它没有提供任何把柄,没有任何弱点可供人类利用。

没有人知道今天人工智能距离GTO策略有多近。确实存在一些可能衡量它的方法,但它们极其昂贵。这些研究尚未完成。这是我们可以在未来几个月内计划的事情。但如果我必须粗略估计一下,我会说,一个完美掌握GTO策略的机器人将以平均每100手牌赢15个大盲注的优势击败Libratus。但是,这一切仍然非常近似。真相位于5到50个大盲注之间。

很难估计Libratus还能改进多少。之前的机器人的主要缺点之一是,它们没有将“阻挡者”纳入其对turn和river的思考中。这是至关重要的。Libratus没有这个问题,这是一个巨大的进步。今天,它不可能在这方面有所改进,但其他领域也存在。例如,它的下注策略就是如此。

Libratus的超额下注在比赛中确实让我们感到惊讶。该软件从未研究过由人类玩家进行的牌局。因此,它在第一天展示了一种独特的策略:它认为最好的策略。大额超额下注,以及donk bets,都是该策略不可或缺的一部分。看到它做一些与人类非常不同的事情,既令人印象深刻又令人兴奋。Claudico已经表现出同样的侵略迹象[但]它的策略并不平衡。Libratus制定了一种平衡的侵略性策略,这在其统治地位中起到了决定性作用。

对三名玩家牌局的研究已经开始。一般来说,Libratus采用的技术也适用于两个以上的玩家。问题更多在于衡量性能。对于两个以上的玩家,你可以从GTO的角度完美地玩,但由于其他玩家之间的互动,你仍然会输。这就是为什么很难通过组织一个软件和五个人类之间的比赛来确定人工智能是否优于人类的原因。[此外],我认为6人制仍然略高于Libratus和其他机器人的能力。

话虽如此,电脑之间的年度扑克锦标赛将把六人制比赛添加到其类别中,因此研究将加速,机器人的进步也将加快。我坚信,对Libratus进行一些改进后,它将能够在两年内在6人制比赛中击败人类。当你玩六人桌时,你没有必要玩GTO。更感兴趣的是关注利用对手的弱点。这是在我们社区中存在的一个辩论,答案仍然悬而未决。今天,人类在利用玩家的弱点并从中获利方面仍然比机器好得多。

评论 0 条

还没有评论,快来发表第一个评论吧
还没有评论,快来发表第一个评论吧

德学院官方

德学院官方

  • 首页
  • 论坛
  • 课程
  • 消息
  • 我的