bet3365娱乐场手机版所以他就只能退休了

当前位置:欧冠投注网站 > bet3365娱乐场手机版 > bet3365娱乐场手机版所以他就只能退休了
作者: 欧冠投注网站|来源: http://www.opicasts.com|栏目:bet3365娱乐场手机版

文章关键词:欧冠投注网站,bet3365娱乐场手机

  冷扑大师与中国龙之队的人机大战今日已鏖战到第7场,来自中国的6位顶尖德扑高手对阵“冷扑大师”Libratus——内基梅隆大学研发的无限扑克人工智能系统。虽然这两日人类偶有胜局,但结果仍然不容乐观。

  冷扑大师为什么这么厉害?来自创新工场人工智能工程院的技术VP、资深德扑玩家李天放给出了他的见解:

  关于德扑AI有两个核心问题: 它是如何工作的? 和 为什么这么玩能赢? 对于第一个问题的答案是一些算法的名字(i.e. Counterfactual Regret Minimization)。对于第二个问题的答案是博弈论中的一些概念(i.e. Nash Equilibrium)。网上已经有很多好的文章,有兴趣的同学可以看看。

  但如果你跟我一样,同时对AI和德扑都非常感兴趣,除此之外肯定还有一大堆跟进问题。出于好奇,我最近看了不少相关资料。以下是我认为一些比较有趣的问题:

  1. 网上都说AI太厉害了,人基本上没有希望赢。这个比赛还有什么看点吗?

  我认为还有好几个有趣的观察点。其中我最感兴趣的一个问题是: “中国队的最终结果是否能够接近于美国队的结果?”

  美国的4个选手最终的结果是-14BB/100。也就是说,平均每跟AI打100手牌,就会输掉14个大盲注。中国战队是否可以超越这个成绩,还是很有悬念的。

  钱数是个虚荣数据,完全没有意义的。其实第一次比赛并没有用真钱,所以几百万只是一个为了传媒效应而随机选出来的倍数。如果当时他们玩的是1分/2分,结果也是一模一样的。bet3365娱乐场手机版只不过标题如果是“AI赢了人类73.2块钱”,听上去就没有那么厉害了。

  真正评价一个选手的实力,也就是几个基本指标。比赛玩家最终看ROI(投资回报率),现金玩家最终看BB/100。

  BB/100就是每打100手牌,你平均会赢或会输多少个大盲注。例如,如果你平常跟朋友打5块/10块的局,每次buyin1000,每周打200手牌,打一年(~50周),然后最后水上5000块钱,那么你的胜率就是 5BB/100。

  国际象棋有ELO,围棋有段级,但德州扑克一直以来都没有级别标准。我们今天讨论某某德州高手,都还用一些大型比赛成绩来代表实力。这是非常不科学的。 如果我们愿意承认AI已经接完美战略,那么每个人的对战结果其实就是一个可对比的实力分数。

  首先这里有一个需要解释的关键点: 不同类型的德州扑克玩法是很不一样的。锦标赛和现金局不一样;1v1,6人桌,9人桌不一样;线上和线下比赛也很不一样。当然这些游戏之间有很多基础理论是相同的。十几年前,因为整体水平低,一个懂的基本理论的玩家无论玩什么游戏类别都有很大优势的。但如今因为竞争压力,很多职业选手都选择专研一两个垂直领域。

  拿游泳做比喻: 一个优秀的游泳运动员在所有项目中都会比普通人快很多。但在奥林匹克级别竞争中,400m的自由泳世界冠军也很难在50m蛙泳中拿到好成绩。

  国外的德州扑克生态环境近年来并不好,能赚钱的地方越来越少,竞争也越来越激烈。美国比赛的4位选手都是线专家。

  中国土豪多,可以支持良好的线下现金局和线下多桌锦标赛。在这两种形式中,中国也有世界级高手。但跟AI玩的是1v1。

  我跟这次战队中一半的选手认识,并一起打过牌。毫无疑问的是他们都有超强的学习能力。不管是打德扑,做企业,做投资,他们都可以在很短时间内成为行业专家。听说杜悦老师在带队急训1v1打法,希望他们可以创造奇迹!

  美国比赛打了12万手牌,这次中国比赛“只”打3万手牌,虽然如此,运气成分还是是非常少的。

  3万手的概念大概是这样的:假设你每天晚上都跟一帮朋友打4个小时牌,一周5次,一年也打不了3万手。

  Group 2: 业余玩家 - 懂得EV,和一些其它的基本游戏元素(比如筹码量,位置,和牌力等因素的运用)。

  Group 2 与 Group 1的最大差别是学会怎样用期望价值(EV)来做决策。Group 3与 Group 2的最大区别是意识到不能只考虑当下手牌,而要考虑整个范围(range),并达到战略上的平衡。

  有趣的是,AI的思维方式跟顶级高手是相似的。区别是AI可以做到更精准的范围推测与计算。

  当然。这个问题背后有个错误假设,就是诈唬的关键在于心理与勇气。其实诈唬更多是一道数学题: “对于我的范围与对手的范围,如果这手牌重现10次,我诈唬 0次,3次,或10次,哪个期望价值最高?”

  同样与上,这个问题的假设是读牌主要靠观察肢体语言或眼神。但其实读牌本质上就是在做范围预估。

  不可能。这个AI的原理就是试图去玩一种防守型完美战略,等着你来犯错误。从博弈论角度上,胡乱打法只是做到了“失去平衡”。

  比如起手raise的数量很多都是在2-3个大盲之间。这个数字不是个惯例,是可以用数学原理证明的。如果你20个bb起raise,那么你就失去平衡了。20bb 起raise仅是一个很容易被AI利用的漏洞。

  诈唬太多,下注太大,随机推all in,这些都是典型的“不平衡”战略。如果有选手试图用这些套路来扰乱AI,会输的很惨。

  抛开技术问题(硬件成本,软件对接)不说,线机器人赚大钱还是有难度的。线是个非常小的盘子,大部分玩家也会避开明显比自己厉害的对手。

  前几年两个顶级高手Doug Polk 和 Ben Sulsky 对决了一次。最后Doug大胜(+25BB/100)。结果是什么呢?之后再也没有人愿意跟Doug打1v1比赛了,所以他就只能退休了。

  另外,5-6年前网上就有很多可以打败90%的选手,并可以持续赚钱的机器人了。想靠德州扑克赚钱,最重要的其实不是打遍天下无敌手,而是选桌。

  GTO打法虽然是“防守型”打法。但并不是说不进攻,而是找到平衡点。很多场景下,人类的打法才是过于保守的,所以为了达到真正平衡,AI会比人选择更狠,bet3365娱乐场手机版更大胆的套路。

  美国参赛选手赛后的采访中,提到了一些AI战术上的特点,包括经常超池下注(overbet),给对手造成极大的压力,并能做出人类(因为心里素质缺陷)做不到的(但是正确的)bluff。

  我之前看过一个美国队牌手的采访,他们说AI跟Tom Duan, Doug Polk这类牌手有很多相似之处。但AI比他们更冷血,更可怕。

  (Sammy: 我手持两对,在1v1中是非常强的一手牌。对手的范围有很多bluff,我bet也没有价值,不如check做一个陷阱,准备check call)

  但是还有一个选择是平常牌手不会考虑的。对手的范围里面有很多A,因此有同花或更强牌的可能性不大。这是一个capped range的情况。如果我这里打一个超pot的bluff,也许可以达到80%以上的弃牌率,EV更高...

  (Sammy: 呃... ... 虽然我有2对,其实我只能赢一个bluff。真的有人敢在这么危险的牌面上推出来一个超pot all in吗? 看来我只能good fold了)

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!