李开复牵头德扑AI要来华挑战王思聪许家印汪峰|李开复|许家印|人工智能_新浪教育

德扑

　　新浪科技李根

　　3月24日下午消息，新浪科技今日独家获悉，卡耐基梅隆大学（Carnegie Mellon University，以下简称CMU）开发的德扑人工智能程序Libratus，将在4月来到中国，与中国德扑玩家进行德扑界的“人机大战”。

　　新浪科技还获悉，这款CMU开发的名为Libratus的德扑程序，将以“冷扑大师”的译名挑战中国德扑高手，而这场挑战赛的发起者，正是CMU校友、创新工场创始人李开复。

　　新浪科技也就此向创新工场做了进一步求证，但对方表示不予置评。

　　Libratus曾碾压人类高手赢176万美元筹码

　　实际上，Libratus并非初出茅庐的毛头“程序”。在今年春节期间，Libratus就已经在宾夕法尼亚州匹兹堡的Rivers赌场，将4位人类职业玩家挑落马下，并且夺走了共计176万美元筹码的奖金。

　　当时，美国东部时间1月30日，CMU开发的Libratus与四名人类职业玩家Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou约战宾夕法尼亚州匹兹堡的Rivers赌场，并在持续20天的比赛时间中，对玩12万手，最后Libratus赢走了总数200万美元筹码奖金中的176万美元筹码。

　　值得注意的是，与Libratus对战的都是德扑职业玩家中的高手。比如其中的Dong Kim，还在2年前在同一个赌场击败了这个人工智能的前身，但在这场为期二十天的比赛刚刚过半之时，Kim就直言：人类已经没有真正获胜的机会。

　　Libratus的这场人机大战中的胜利，也迅速引发关注。即便在AlphaGo之后，AI击败人类已经不再是什么新闻，但人工智能在德州扑克上击败人类，这其中的难度和信息量不可小觑。

　　AI玩德扑为何难？

　　利用人工智能程序玩德扑，最大的难度在于“不完整信息博弈”。因为玩德州扑克需要推理能力，而这对于机器来说很难模仿。虽然人工智能在跳棋、象棋乃至围棋比赛中，已经完胜人类对手，但无限注德州扑克是一个完全不同的情况。

　　此前据AI新媒体《量子位》报道，由于一些卡牌并没有发出来，在德州扑克的对局里，任意时间，任何一个玩家，都只能观察到一部分的情况。要赢，他们需要直觉：一种猜测其他玩家手上是什么牌的能力。而且还要考虑到对手每一种可能的打法，想得到理想的战略非常困难。而现实世界中，不完美信息才是常态，各种看不见的隐藏信息产生了大量的不确定性，而德州扑克代表的就是这种类型的博弈。在围棋界纵横无敌的AlphaGo，本质上处理的还是完美信息博弈，而AlphaGo无法处理德州扑克的问题，更遑论使出诈唬。

　　新浪科技则了解到，为了解决“不完整信息博弈”这种计算机难题，CMU的人工智能研究者们专注于信息集，通过同时思考未知和已知变量各种可能状态的方式来进行预测，这需要强大的计算能力。

　　在计算能力方面，CMU主要依赖于Bridges Super Computer超级计算机。每个牌局结束后的夜晚，匹兹堡市超级计算中心Bridges电脑执行计算，用以优化Libratus的策略。而在白天的比赛过程中，Bridges用于计算每一手的终结游戏策略，Bridges提供三种类型的计算选项，称为节点：常规、大型和超大型。Bridges不是当今世界最大、最快、最强劲的超级计算机，但它可能是面向公众开放的，最大、最快、最强劲的超级计算机，在Bridges的帮助下，原本在个人电脑上耗时数月的计算，仅仅几个小时就搞定。

　　此外，在计算能力保障的基础上，CMU在具体技术应用方面，用到了区别于AlphaGo的方法。CMU方面曾披露称，Libratus没有用到专业的牌局进行神经网络的训练，不同于AlphaGo用了大量的棋局做训练，这个模型用的是随机生成的牌局（随机产生公共牌、底池筹码、玩家拿牌概率）和尝试性的动作带来的结果（在随机生成的输入情况下模拟玩家跟牌后的结果）作为训练数据。

　　Libratus还利用了博弈论，与AlphaGo不同，Libratus系统不通过分析大量可能的下一步完成任务，这个CMU构建的新系统通过平衡风险与收益来决定自己的下一步，在纳什均衡定义中的完美游戏状态。

　　最后，在具体操作上，Libratus分三步走。第一阶段，Libratus通过名为反事实遗憾最小化（counterfactual regret minimization）的算法，在经过训练之后独立于人的玩法形成自己的策略。第二阶段，第二个系统属于一种“残局解算器”。它可以分析游戏状态并聚焦于第一套系统的注意力，使人工智能在比赛过程中也能进行学习。第三阶段，Libratus会借助Brown，运用一个算法来识别出那些被玩家利用的机器玩法，然后从策略中剔除掉。

　　赢了人类又怎样？

　　当然，人工智能程序Libratus在德扑赢了人类，还不止于会改变德州扑克发展历程这么简单。跟AlphaGo一样，它很容易应用到其他领域，并且更加有效且快速地解决人类难题。

　　因为玩德州扑克需要推理能力和心理战术，而这对于机器来说很难模仿。在围棋界纵横无敌的DeepMind AlphaGo本质上处理的还是完美信息博弈，无法处理德州扑克的不完美信息问题，更遑论使出诈唬（Bluffing）。

　　而Libratus的例子说明，AI在面临不完全或误导信息时，已经有进行推论的能力。现实世界中，不完美信息才是常态，各种看不见的隐藏信息产生了大量的不确定性，而德州扑克代表的就是这种类型的博弈。

　　所以在未来，Libratus这样的AI，可以用于商业谈判、网络安全、医疗方案制定等领域。

　　而人工智能发展的终极目标，很可能会产生一个通用人工智能（AGI）。通用人工智能可以解决任何一个问题，而不是像Libratus或者AlphaGo这样只能专注于扑克或者围棋。想要实现AGI就得让人工智能学会解决不确定性问题，这也是Libratus让科技界、科学界兴奋不已的最主要原因。

　　为何还要在中国掀起“人机大战”？

　　不过，既然Libratus已经在正式比赛中战胜了顶级职业玩家，为何还要专门来到中国掀起“人机大战”？更何况德州扑克跟围棋还不一样，中国并非德扑的华山之巅。

　　新浪科技希望就此向创新工场咨询，但对方并未对此作出回应。

　　不过新浪科技有可靠渠道和可信资料证明，把CMU的德扑程序Libratus带进中国的，正是CMU的知名校友、现创新工场创始人：李开复。

　　值得一提的是，李开复还专门为“Libratus”取了中文名——冷扑大师。

　　至于为何是李开复和创新工场作为主办方？有接近创新工场方面的人士向新浪科技分析称，首先CMU是李开复的母校，也是CMU在中国最为知名的代表；其次创新工场主办此事，可能还与其目前在人工智能领域的布局有关，去年年底，创新工场正式成立了创新工场人工智能工程院，并且希望进一步提升知名度揽获更多的AI人才；值得一提的是，李开复是创投圈内知名的德扑选手，之前先后发起并参与了首届投资界扑克赛和中国创投名人赛，甚至还吸引了娱乐明星汪峰等参加。

　　此外，新浪科技还获悉，在此次人机扑克大赛期间，Libratus开发者卡耐基梅隆大学教授也将同步来华进行交流。

　　有趣的是，在新浪科技获悉的资料上，表演赛选手名单中包括李开复、沈南鹏、倪正东、吴世春、王小川、许朝军等科技创投人士，也有许家印、朱晔等企业家，还包括王思聪、汪峰、和华少等娱乐圈焦点人物。

　　然而截至发稿前，创新工场方面并未对此发表回应和说明。

　　原文标题：《李开复牵头，德扑AI要来华挑战王思聪、许家印、王小川？》

　　责任编辑：张海磊