AlphaGo Zero证明，机器无需帮助即可成为超人

2017-10-19 14:40 新浪科技 - 斯眉

导语：《麻省理工科技评论》（MIT Technology Review）、《Slate》、Quartz、Gear of Biz等美国媒体今日发表文章称，用不了多长时间，AlphaGo将不再是地球上最好的棋手。新式高超的人工智能程序版本AlphaGo Zero已经出现，它堪称怪物。它从零开始，面对的只是一张空白棋盘和游戏规则。它无师自通，仅仅通过自学使自己的游戏技能得以提高。但是它从来都不仅仅关乎棋盘游戏，未来将会在更多领域发挥作用。

以下为文章主要内容：

采用新的机器学习形式，升级版人工智能AlphaGo Zero可以自学围棋棋谱中的一招一式。

用不了多长时间，AlphaGo将不再是地球上最好的棋手。新式高超的人工智能程序版本已经出现，它堪称怪物：在一场白热化对决中，AlphaGo Zero以100：0的不败战绩绝杀“前辈”。

真正炫酷之处在于Alphabet Zero是如何做到这一点的。原来的AlphaGo需要与人类专家进行成千上万次对弈，才能从中获取数据，Alphabet Zero则截然不同。虽然它也是由Alphabet旗下的子公司DeepMind开发的，但它从零开始，面对的只是一张空白棋盘和游戏规则。它无师自通，仅仅通过自学使自己的游戏技能得以提高。

这种新程序代表着人类在建造真正智能化机器方面向前迈进了一步，因为即使在没有大量训练数据的情况下，机器也需要找出解决困难问题的方法。

“最引人注目的一点是，我们不再需要任何人工数据，”DeepMind联合创始人兼首席执行官戴密斯·哈萨比斯（Demis Hassabis）说。哈萨比斯认为，建造Alphago Zero的技术已经足够强大，可以应用在现实世界，例如药物发现与材料科学等一些有必要继续探索各种可能性的行业。Alphago Zero的相关研究成果发表在今天的《自然》杂志上。

值得注意的是，在自学过程中，Alphago Zero发现了许多人类围棋选手在过去几千年中形成的诀窍和技术。“在几天的时间里，它重新找到了已知的最佳玩法，在最后一天，甚至在此之上发现了更好的东西，”哈萨比斯说。“看到这一切，感觉很酷。”

DeepMind公司总部位于伦敦，2014年被谷歌收购。该公司专注于利用游戏、模拟和机器学习在人工智能领域取得巨大进步；迄今为止，他们已经聘请了数百名AI研究人员共同追寻这一目标。哈萨比斯说，大约15人参与AlphaGo Zero的研发，耗费的计算资源估计达数百万美元。

AlphaGo和AlphaGo Zero都采用一种被称之为强化学习的机器学习方法及深层神经网络系统。强化学习的灵感来源于动物可通过实验和反馈进行学习，DeepMind已经使用这种技术，在简单的雅达利游戏有着超人的表现。

然而，掌握围棋有着特别重要的意义，因为围棋十分复杂，最好的棋手可以凭借本能落子。换句话说，一盘好棋很难用代码来解释或写出来。

围棋中各种变数的数量，甚至超过了宇宙中原子的数量

毫无疑问，AlphaGo Zero在围棋世界标志着颠覆性进步，但是，它对世界其他领域有什么潜在影响？麻省理工学院计算机科学和人工智能实验室（CSAIL）的研究生尼克·海因斯（Nick Hynes）认为，在一段时间内，它只是一种专门工具，不太可能对我们的日常生活造成冲击。

“到目前为止，该算法只适用于采取简单几个步骤就能解决的问题，如果要将其运用于移动等连续控制问题，那就需要加以改进，”海因斯告诉Gizmodo。“而且，它要求你具备非常好的环境模型。在这种情况下，它差不多了解所有规则。这就像你拥有一个机器人，你可以准确地预测它的行动结果，但在不完美的现实系统中，它是不灵的。”

他说，好消息是目前有几项人工智能研究正在致力于解决上述两个问题（例如机器学习、进化算法等），所以，它实际上只是个集成问题。海因斯说，“这里的真正关键在于技术。”

“正如预期和期望的那样，我们正在与获得一堆人类标记数据并训练一种模型来模仿它的经典模式渐行渐远，”他说，“我们在这里看到的是一个毫无人类偏见和预设的模型：它可以从它认为最优的东西中学习，可能比我们自己对这个概念的看法更加细致入微。如同一种外星文明发明了自己的数学，允许它去做像时间旅行之类的事情，”对此他补充说，“尽管我们距离奇点还很远，但我们肯定正在朝着那个方向前进。”

正如海因斯所承认的，这一最新突破并不意味着技术奇点（即在未来某个假定时间，超过人类的机器智能实现爆炸性增长）即将来临，但它应该让人们停下思想的脚步。一旦我们教一种系统学会游戏规则或某一现实世界问题的强制规定，增强学习的力量将使其可以简单地按下开始按钮，让系统做余下工作。然后，它将找出在这项任务中取得成功的最佳方法，设计出超越人类能力、甚至可能是人类理解能力的解决方案和战略。

DeepMind研究人员在其论文中所总结道：“我们的研究结果全面展示了即使在最具挑战性的领域，纯粹的强化学习方法也是完全可行的：不借助人类的示范或指导，不用学习超越基本规则的知识，就可以培养出超人。”

而事实上，现在人类玩家已经无法在国际象棋、围棋等游戏中独占鳌头，可以说，我们已经进入了超级智能的时代。这一最新突破是对未来的最细微暗示。

加拿大艾伯塔大学的马丁·穆勒（Martin Mueller）教授曾对围棋软件做出重要贡献，AlphaGo Zero的设计给他留下了深刻印象，认为它使强化学习更上层楼。他说：“这种架构比以前的版本更简单，功能更强大。”

AlphaGo从来都不仅仅关乎棋盘游戏。

AlphaGo Zero不是第一种可自主运行的算法——埃隆·马斯克旗下的非营利机构OpenAI也采用了类似技术来训练一种AI程序玩视频游戏——但它的能力表明，它是迄今为止最强大的技术实例之一。

“药物发现、蛋白质、量子化学、材料设计——材料设计，想想看，也许在室温下就可以制造出超导体，”哈萨比斯说，他指的是一种可完美导电的假想金属。

DeepMind说不会公布代码，因为它可能被用于其他意图。哈萨比斯说，研究人员可以从《自然》杂志上复制部分代码。

该领域的其他人认为，这种方法简单得令人吃惊，预示着该算法可适用于其他领域。OpenAI的AI研究科学家蒂姆·萨里曼斯（Tim Salimans）在发给外媒的电子邮件中指出，简单而常见的方法在AI研究中非常有价值，因为不需要付出更多努力就可以为其他问题带来同样的解决方法。

“我认为将其定性为‘普遍适用于当今的技术优势’是公平的，”萨里曼斯说。“当然了，尽管它不足以直接应用于其他问题，但可以将其视为解决其他问题的第一步，这种看法不无道理。”

强化学习也显示出人们有可能在许多其他环境（包括在一些手工编程不现实的地方）实现机器编程自动化。通过测试已证明，运用这项技术可以教会机器人抓取笨重物体，并可以对正在运行的硬件重新配置，以保存数据中心所需能量。然而，在许多实际情况下，可能没有大量例子可供学习，这意味着机器必须自学成材，这正是AlphaGo Zero令人感兴趣之处。

“不使用人工数据或人工专长，我们就可以真正突破人类知识的限制，”DeepMind公司首席研究员、伦敦大学学院教授大卫·西尔佛（David Silver）说，“它能运用基本原理自行创造知识。”

DeepMind已是人工智能界的宠儿，而其最新成果一定会抢占媒体头条，并引发议论，促使人工智能形式变得更强大。

尽管如此，人们还是有理由对这一成果持谨慎态度。华盛顿大学教授佩德罗·多明戈斯（Pedro Domingos）指出，与人类专家相比，这款程序仍然需要对弈上百万次，才能真正掌握围棋。这表明，在某种程度上，这款程序所使用的智能系统与人类存在根本不同。

“这是一个很好的例子，足以显示近期人们在深入学习和强化学习方面的进步，但我不想过分解读，认为机器可以不借助人类知识而自我学习，”多明戈斯说。“如果AlphaGo在夺得冠军前，练习次数与（韩国传奇冠军）李世石（Lee Sedol）大致一样多，那才令人震撼呢！我们离那一步还远着呢。”

事实上，西尔佛和哈萨比斯都承认，在机器掌握智能的过程中，如何通过更少的数据进行学习是至关重要的。这可能涉及开发新方法，让机器将在一个领域学到的知识转移到另一个领域，或者从观察他人（包括人类和其他AI）中学习。

但是，尽管这项工作尚待完成，哈萨比斯希望在10年内，人工智能可以在解决科学、医药或其他领域的重要问题中发挥重大作用。“我希望这些算法和未来的版本能够成为我们向科学和医学前沿推进的常规工作伙伴，”他说。“也许未来所有产品的设计和发现都离不开这些算法，它们将与聪明的人类一起工作。”

人们有很多理由为AI担心，但DeepMind的AI并不能自主编程，毁灭人类。它们自主编程的目的是将一些无聊乏味的工作从开发人员的肩头卸下来，让后者以一种崭新的视角来观察问题和数据集。令人惊讶的是人工智能在过去几年发展神速，但从本周开始人们就可以清楚地看到，现在的进步将会更快。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。