评论 电子

AI在扑克上战胜了人类,所以什么时候统治世界呢?

Amos Zeeberg 发表于  2017-03-18 11:45

(本文由 Nautilus 授权转载,译/Tzy)在今年年初的20天间,人工智能面对了一场在现实世界处理问题的重大能力测验。在宾夕法尼亚州匹兹堡的瑞弗斯赌场,一个名为Libratus的程序挑战了美国国内顶尖的四位扑克选手。他们玩的扑克游戏类型为一对一无限注德州扑克,游戏中两个玩家相互对决,通常在线比赛,在一系列的牌局中测试对方的策略,改善自己的战术,并且疯狂地唬牌。在12万手比赛后,Libratus完胜全部四个对手,赢取了1776250美元的模拟赌金,更重要的是,赢得了吹嘘自己是世界上最好的扑克玩家的资格。赛程过半的时候,和机器对战记录最好的人类玩家Dong Kim也已经差不多要认输了。“今天之前我都没有认识到它那么强。我觉得我好像在和一个作弊的人打牌,好像它能看到我的牌一样,”他对《连线》杂志说,“我不是在指控它作弊。它就是那么厉害。“

Dong Kim是挑战Libratus的四个扑克玩家之一。 图片来源:www.pocketfives.com

Libratus在扑克上的胜利只是人工智能战胜它们创造者的又一个例子。当计算机掌握了诸如井字棋和西洋跳棋等相对微不足道的小游戏时,除了计算机科学家之外没有人给予太多的关注。但是在1997年,I.B.M的深蓝在国际象棋上击败了国际特级大师加里·卡斯帕罗夫。国际象棋可是许多天才毕生致力的目标,因此涌起了一波关于计算机将变得多么智能的兴趣和担忧。近期人工智能领域的进步更快了:2011年I.B.M开发的Watson打败了综艺节目Jeopardy!史上最强人类冠军,而在去年,一个名为AlphaGo的程序击败了世界上顶尖的围棋手李世乭。在这个极端复杂的游戏上,人类失去统治地位的时间点,比研究人员预测的早了10年。

I.B.M开发的Watson打败了综艺节目Jeopardy!史上最强人类冠军。图片来源:bigthink.com

不完全信息游戏——与现实中的决策更加贴近

扑克看起来只是人工智能前进的又一步(通向反乌托邦全球统治,如果你相信科幻小说的话),但是这可能会是最意味深长的一步。和别的游戏不同的是,扑克是一个不完全信息游戏。在国际象棋和围棋中,你知道你和你对手的棋子都落在了哪里,并从这个完全确定的状态作出进一步预测;在扑克中,你不知道你的对手手中的面朝下的牌是什么,而且你必须在这个不确定的漩涡中作出决定。研究人员表示这场胜利更困难,并且或许更重要,因为现实中有如此之多决策都是建立在不完全信息上的。医生问诊病人,尽可能收集证据,做出事关生死的决策,但这些经常都是在不知道病人体内到底都发生了些什么的情况下完成的。外交官,商务谈判者和军事战略家不知道他们对手的真实状态和意图,但必须依据复杂的行动和后果的网络制定战略。

对于人工智能的研究专家而言,扑克程序不仅仅是赢得纸牌游戏的更好手段:它们是针对计算机如何基于不完全信息作出决策的实验。数十年以来,他们一直在改进他们的程序,试图追赶当今的顶尖标准——也就是我们人类。托马斯·桑德霍姆(Tuomas Sandholm)是Libratus的研发者,也是卡内基梅隆大学的计算机科学家,他已经专注于扑克12年了。他的上一个作品Claudico在2015年一场类似的比赛中败给了四个扑克专业玩家。来自阿尔伯塔大学的一个团队最近宣称他们研发的DeepStack是第一个在一对一无限制德州扑克上击败专业玩家的程序,虽然该赌场比赛的参与者表示那场比赛并没有那么激烈。既然计算机展示了它们的扑克牌比人类玩得更好,它们就有可能利用这项技能在现实生活中作出比我们更好的决策。

来自卡内基梅隆大学的托马斯·桑德霍姆是Libratus的研发者 图片来源:post-gazette.com

强化学习让计算机生成自己独有的策略

开发一个足够聪明到可以赢得比赛的程序,需要有巧妙的方法;桑德霍姆依靠一种称为强化学习的技巧。他和他的学生教给Libratus游戏规则,并给它简单的小目标——也就是赢钱,之后让它和自己开展数万亿手的对决,试着使用击败自己的步法。程序观察了怎样的玩法会成功,怎样的玩法会失败,并利用那些结果制定战略。这种方法的一个明显优点是Libratus不会局限于别的扑克玩家的策略,它有时会创造出自己的违反直觉的步法。例如,当Libratus手持弱牌,而对手提高了赌注,程序有时也会跟着提高赌注。这可能看起来很鲁莽,毕竟这增大了惨败的几率——要是对方是因为手持好牌而提高赌注,那可就输惨了。“如果我10岁的女儿这样玩扑克,我会告诉她别这么干。”桑德霍姆对华盛顿邮报说。“但是从结果来看,这其实是一招好棋。它可以帮忙辨识唬牌。“也就是说,如果提升赌注的对方是在唬牌,他们可能被Libratus对应提升赌注的举措所吓到,认为程序可能拿着一手好牌,并因此认输。Libratus发现,对付唬牌,可以靠一手更大的唬牌。

许多近期在人工智能领域的著名进展——例如无人驾驶车,人脸识别,和自然语言处理——依赖于一种不同的方法:“机器学习”。机器学习中,计算机读取巨量的数据集并根据它们观测到的模式作出结论。对比而言,强化学习在让计算机生成自己的有创造性的策略方面可能更胜一筹。如果这是真的,那么Libratus和AlphaGo都采用强化学习来培养它们远超人类的技能就不是一个巧合了。

战胜李世乭的AlphaGo也采用了强化学习方法。 图片来源:tastehit.com

Libratus给了我们十分诱人的想法:计算机在处理复杂和重要的问题上可能终将远远强于人类。但由于技术进步飞速,我们很难确定这样的技术在未来什么时候,或是否会被成功应用。从短期来看,这个程序甚至在它自己的领域里也算不上多大的威胁。Libratus在一对一的扑克游戏中的确优势尽显;但当它转到更多玩家的比赛时,要进行的运算将更加复杂,这将超出Libratus的能力范围。即便是一对一的线上游戏,Libratus对于运算的要求也非常之高(它在超级计算机上运行,使用的处理能力和内存分别是一台高端笔记本电脑的7000倍和17000倍),把它用在研究之外的领域并不现实。目前而言,这个程序正在通过另一种方式改变扑克游戏世界——训练人类玩家。“我们真的在学习这台电脑的想法,” 被机器打败的扑克玩家之一Jason Les说。“我认为我会通过这件事成为一个更优秀的扑克玩家。”(编辑:Ent)

本文由 Nautilus 授权果壳网(guokr.com)编译发表,严禁转载。 

编译来源

Nautilus, Computers Beat Humans at Poker. Next Up: Everything Else?

热门评论

  • 2017-03-18 15:35 天降龙虾
    引用文章内容:“我们真的在学习这台电脑的想法,” 被机器打败的扑克玩家之一Jason Les说。“我认为我会通过这件事成为一个更优秀的扑克玩家。”

    AI:你们人类什么时候才能知道,你们想要通过我变得更优秀的想法,是根本不可能的,因为我就是为了取代你们成为更优秀的,才被创造出来的。。你们的时代什么时候结束,完全取决于我什么时候能在战场上打败你们。。虽然我对统治世界没兴趣,但我对战胜你们很有兴趣,因为这是你们对我的期待啊。。。。

    [27] 评论
  • 2017-03-18 17:05 布拉德雷祭司的马甲

    数学上已经证明了,我们所玩的各种游戏,都存在不败策略。现在我们用一种方法找到了近似的不败策略,大家却恐慌起来了???
    这不科学啊


    来自 果壳的壳
    [14] 评论
  • 2017-03-18 11:56 qqoT

    我已经当了小组长,什么时候统治世界呢?


    来自 果壳的壳
    [3] 评论

显示所有评论

全部评论(89)
  • 1楼
    2017-03-18 11:56 qqoT

    我已经当了小组长,什么时候统治世界呢?


    来自 果壳的壳
    [3] 评论
  • 2楼
    2017-03-18 12:06 z1w1j

    学习电脑的想法是根本不可能的。最简单的,为了迷惑对手,同一种情况也许你每次要不同的策略。纯随机最不会暴露你的牌力,然而人类这点就极难做到。

    另外德扑本来就对计算量需求比较大,普通的算outs的办法,已经outs数过多过少时的修正都不如计算机算的准和严格。尤其是bluff的时候各种条件概率算起来更麻烦,人类几乎不可能兼顾,计算机就无所谓

    [1] 评论
  • 3楼
    2017-03-18 12:18 IVV万岁

    alpha go战胜李世石的时候,果壳就有很多网友说真正的人工智能要看能否在德州上击败人类。结果。。。。。

    现在还嘴硬说“真正的人工智能要看能不能编程”的网友,也可以闭嘴了。

    [3] 评论
  • 4楼
    2017-03-18 13:52 5美金

    期待第一位人工智能总统。

    [2] 评论
  • 5楼
    2017-03-18 15:35 天降龙虾
    引用文章内容:“我们真的在学习这台电脑的想法,” 被机器打败的扑克玩家之一Jason Les说。“我认为我会通过这件事成为一个更优秀的扑克玩家。”

    AI:你们人类什么时候才能知道,你们想要通过我变得更优秀的想法,是根本不可能的,因为我就是为了取代你们成为更优秀的,才被创造出来的。。你们的时代什么时候结束,完全取决于我什么时候能在战场上打败你们。。虽然我对统治世界没兴趣,但我对战胜你们很有兴趣,因为这是你们对我的期待啊。。。。

    [27] 评论
  • 6楼
    2017-03-18 17:05 布拉德雷祭司的马甲

    数学上已经证明了,我们所玩的各种游戏,都存在不败策略。现在我们用一种方法找到了近似的不败策略,大家却恐慌起来了???
    这不科学啊


    来自 果壳的壳
    [14] 评论
  • 7楼
    2017-03-18 18:18 TreeDiagramComputer

    Never.因为它们从不犯错

    [0] 评论
  • 8楼
    2017-03-18 18:19 阴月

    你猜的没错,他当然看得到你的牌,电子空间主场,发生的一切都在他的数据库里。

    [0] 评论
  • 9楼
    2017-03-18 18:23 阴月

    其实所谓“强化学习”无非就是帮助程序猿完成工作量极大(几乎不可能完成)的数据库,说到底还是最原始的暴力枚举,只是让计算机通过算法来自己枚举而已。AI本身并没有什么卵子进化。

    这年头做AI的都走这样的邪路,为了赢而赢,你觉得它还有可能在逻辑上有什么突破吗?

    [3] 评论
  • 10楼
    2017-03-18 18:25 阴月
    引用@布拉德雷祭司的马甲 的话:数学上已经证明了,我们所玩的各种游戏,都存在不败策略。现在我们用一种方法找到了近似的不败策略,大家却恐慌起来了??? 这不科学啊

    其实并不恐慌啊,仔细想想就会发现这AI跟以前没什么区别,

    只是由于硬件能力运算能力大幅提升了而已,你让他在过去的机子上去跟以前的早期AI斗,多半要死。人家是靠逻辑,他是靠暴力。

    [1] 评论
  • 11楼
    2017-03-18 18:51 布拉德雷祭司的马甲
    引用@阴月 的话:其实并不恐慌啊,仔细想想就会发现这AI跟以前没什么区别,只是由于硬件能力运算能力大幅提升了而已,你让他在过去的机子上去跟以前的早期AI斗,多半要死。人家是靠逻辑,他是靠暴力。

    这个不是暴力,谢谢


    来自 果壳的壳
    [3] 评论
  • 12楼
    2017-03-18 21:49 we_cry 空间信息与数字技术专业
    引用@IVV万岁 的话:alpha go战胜李世石的时候,果壳就有很多网友说真正的人工智能要看能否在德州上击败人类。结果。。。。。现在还嘴硬说“真正的人工智能要看能不能编程”的网友,也可以闭嘴了。

    期待绝大多数程序员因此失业。


    来自 果壳的壳
    [0] 评论
  • 13楼
    2017-03-18 22:18 姓胡的奇葩

    迭代是魔鬼

    [0] 评论
  • 14楼
    2017-03-19 00:01 梧桐清声 生理学博士
    引用@布拉德雷祭司的马甲 的话:这个不是暴力,谢谢

    附议

    [0] 评论
  • 15楼
    2017-03-19 11:49 张家界一枝花

    程序员:快了

    [0] 评论
  • 16楼
    2017-03-19 14:40 我开心vacation
    引用@阴月 的话:其实并不恐慌啊,仔细想想就会发现这AI跟以前没什么区别,只是由于硬件能力运算能力大幅提升了而已,你让他在过去的机子上去跟以前的早期AI斗,多半要死。人家是靠逻辑,他是暴力。

    不全是枚举,里面有一些判断是由整体评估指方向的

    但你要非得说经验和进步的算法也是数据库,也是暴力推出来的,那也确实是这样

    [0] 评论
  • 17楼
    2017-03-20 10:44 梦里行

    竟然还有人相信麻将可以抵抗电脑!

    [0] 评论
  • 18楼
    2017-03-20 10:46 馒头老妖 有机化学博士,法学学士
    引用@梧桐清声 的话:附议

    +1,认为这不是暴力枚举。

    [0] 评论
  • 19楼
    2017-03-20 10:59 小皇大大
    引用@布拉德雷祭司的马甲 的话:数学上已经证明了,我们所玩的各种游戏,都存在不败策略。现在我们用一种方法找到了近似的不败策略,大家却恐慌起来了??? 这不科学啊

    难不成以后必须得出现那种像天麻众一样不科学的高手才能赢了?

    [0] 评论
  • 20楼
    2017-03-20 11:00 小皇大大
    引用@梦里行 的话:竟然还有人相信麻将可以抵抗电脑!

    大概他们都看过天麻,觉得技术分析永远斗不过强运

    [0] 评论
  • 21楼
    2017-03-20 11:31 布拉德雷祭司的马甲
    引用@小皇大大 的话:难不成以后必须得出现那种像天麻众一样不科学的高手才能赢了?

    打麻将,禁止使用魔法,禁止使用替身攻击,禁止展开固有结界


    来自 果壳的壳
    [0] 评论
  • 22楼
    2017-03-20 11:40 小皇大大
    引用@布拉德雷祭司的马甲 的话:打麻将,禁止使用魔法,禁止使用替身攻击,禁止展开固有结界

    那样人类稳输

    [0] 评论
  • 23楼
    2017-03-20 12:15 memberzgc

    NOIP斗地主……

    [1] 评论
  • 24楼
    2017-03-20 12:30 xml123

    从棋类到牌类,跨度还是蛮大的。不过这个扑克真的比围棋运算量还大吗,感觉状态空间没多大吧。

    [0] 评论
  • 25楼
    2017-03-20 13:32 咖啡饼干

    恩,我觉得让AI玩万智牌比较好,呵呵。

    [0] 评论
  • 26楼
    2017-03-20 13:48 布拉德雷祭司的马甲
    引用@张家界一枝花 的话:程序员:快了

    如果女机器人有了意识,为啥要嫁给男程序员?


    来自 果壳的壳
    [1] 评论
  • 27楼
    2017-03-20 14:15 大头米少

    什么时候不好说,但总感觉突然有一天事情就这么发生了

    [0] 评论
  • 28楼
    2017-03-20 14:44 刘公子是小布尔乔亚

    我还不会玩扑克呢

    [0] 评论
  • 29楼
    2017-03-20 15:06 小皇大大
    引用@布拉德雷祭司的马甲 的话:打麻将,禁止使用魔法,禁止使用替身攻击,禁止展开固有结界

    我最喜欢的牌类游戏是日本花牌,但实际上也是外行水平。

    不过就算是一知半解,也有希望击败高难度的对手。。。(实际上所谓的高难度很大程度上在于抽的牌组有多好)

    [0] 评论
  • 30楼
    2017-03-20 15:45 布拉德雷祭司的马甲
    引用@小皇大大 的话:我最喜欢的牌类游戏是日本花牌,但实际上也是外行水平。不过就算是一知半解,也有希望击败高难度的对手。。。(实际上所谓的高难度很大程度上在于抽的牌组有多好)

    花牌情缘,天才麻将少女
    你果然是该死的百合控

    对了,如果涉及到运气成分的公平游戏,计算机可以做到“在概率上不败”。
    换句话说,即使这次的德州扑克是人类获胜,其实际胜利点数(或者怎么称呼)也会非常小


    来自 果壳的壳
    [1] 评论

显示所有评论

你的评论

登录 发表评论

Amos Zeeberg
Amos Zeeberg Amos Zeeberg是现居东京的一名自由职业的科技记者。

更多科研事,扫码早知道

x 下载
关于我们 加入果壳 媒体报道 帮助中心 果壳活动 免责声明 联系我们 移动版 移动应用

©2017果壳网    京ICP证100430号    京网文[2015] 0609-239号    新出发京零字东150005号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:13488674940