德学院

在「德学院」App中打开

详情

Pluribus人工智能在扑克游戏中击败专业玩家

2025.07.07 17:45:51 发布

Libratus也曾令人着迷,同时也令人担忧。它的后代Pluribus,即使不是更令人着迷,也是如此。这款由Tuomas Sandholm和Noam Brown开发的,人工智能,实际上刚刚在六人配置中击败了几位经验丰富的扑克玩家。与过去两年在单挑赛中观察到的表现相比,这是一个真正的飞跃。

Tuomas Sandholm
Tuomas Sandholm,Pluribus之父

像之前的Libratus一样,Pluribus几天来也获得了主流媒体的赞誉。Facebook的人工智能击败了几位扑克冠军,20minutes为此感到兴奋。在扑克游戏中,人工智能的表现不如冠军们那么容易预测,BFMTV对此进行了补充。同样的声音也来自大西洋彼岸,例如,这篇发表在《自然》杂志上的文章,题为《无限制:人工智能扑克机器人是第一个在多人游戏中击败专业人士的》。

 

为了充分衡量这一公告,没有什么比Noam Brown为Facebook撰写的经验报告更好了。或者更好的是,他与Tuomas Sandholm共同署名在《科学》杂志上发表的更全面的报告。两位科学家在文章中详细介绍了他们的研究方法、结果、发现和惊喜。即使您不熟悉所有开发的概念,这仍然是一篇绝对引人入胜的文章。

 

2017年,Libratus在与四位冠军的单挑赛中展示了实力。几个新的算法和代码行之后,Pluribus带着全新的优势和雄心出现了。它的创造者保证:它的全速运行不需要数百万美元。谷歌的冠军AlphaGo使用了1920个处理器,其中280个是实时的,而Pluribus只需要两个处理器和不到128 Gb的内存。

 

卡内基梅隆大学希望对其进行测试。为此,它寻求了经验丰富的扑克玩家的合作:克里斯·弗格森、格雷格·梅森、达伦·伊利亚斯、吉米·周、塞斯·戴维斯、迈克尔·加利亚诺、安东尼·格雷格、莱纳斯·洛伊利格、丹尼尔·麦考利、尼克·彼得安杰洛、肖恩·鲁安、特雷弗·萨维奇和杰克·图尔,还有曾与Libratus交锋的董金和杰森·莱斯。

 

比赛基于两种形式进行:五名人类玩家和一名人工智能,以及五名人工智能和一名人类。每次,每局开始时,筹码为10,000个(即100个盲注)。此外,还有一个加权机制,旨在将方差纳入计算,并“在十分之一的手牌中获得有意义的结果”。

 

最终,Pluribus在实验中获胜,平均收益为5bb/100。“这一结果”,报告中写道,“超出了职业选手在由职业选手和业余爱好者组成的牌桌上的平均收益期望”。例如,在由一名人类对抗五名人工智能的配置中,每位玩家进行了5,000手牌,导致了以下亏损:达伦·伊利亚斯4bb/100,克里斯·弗格森2.5bb/100,莱纳斯·洛伊利格0.5bb/100。这些细微差别表明了选择演员以获得可靠结果的重要性。

 

这项研究还充满了关于Pluribus行为的细节,例如,其思考时间在1到33秒之间波动,具体取决于情况。在论坛上,fredydruger主要关注这个引人注目的进展曲线,他用一句话总结道:“它需要7个小时才能击败一名人类玩家,需要20个小时才能击败任何人,但需要三天才能消除其策略中的跛行”。达伦·伊利亚斯强调了其对手的适应能力:“它的主要优势是它能够采用不同的策略。人类试图这样做,但对于人类来说,执行力令人失望。大多数人无法真正以完全随机和持续的方式做到这一点”。

 

如果扑克界对这样的进步感到担忧是合理的,那么应该记住,这只是Pluribus的一个阶段。它的创造者看得更远,并提到了它在现实世界中的潜在应用,特别是在信息被隐藏的情况下,例如在预防欺诈和网络安全方面。在玩家更关心他们参与的在线游戏的安全性之际,这是一种悖论。

评论 0 条

还没有评论,快来发表第一个评论吧
还没有评论,快来发表第一个评论吧

德学院官方

德学院官方

  • 首页
  • 论坛
  • 课程
  • 消息
  • 我的