谷歌气球的人工智能为何令开发者自己感到惊奇

2021-03-05 09:10新浪科技 - 任天

北京时间 3 月 5 日消息，使用人工智能的算法正在尝试以意想不到的技巧来解决问题，这让它们的开发者感到惊讶。但与此同时，这也引发了人们对如何控制人工智能的担忧。

谷歌公司的一群员工正茫然地盯着自己的电脑屏幕。几个月来，他们一直在完善一个算法，用来控制一个无人热气球从波多黎各一直飞到秘鲁。但还是有些地方不尽如人意，气球在机器智能的控制下不断偏离既定路线。

Loon 项目（Project Loon）是谷歌公司现已停止的一个项目，旨在通过气球将互联网接入偏远地区。作为该项目的负责人，塞尔瓦托 · 坎迪多无法解释这个气球的轨迹。最后，他的同事们手动控制了系统，让气球回到了正轨。

后来他们才意识到发生了什么。令人意想不到的是，气球上的人工智能学会了重现人类在几百年，甚至几千年前发明的古老航海技术，例如 “改变航向”，这指的是操纵船只迎风航行，然后再向外倾斜，从而在大致方向上以之字形前进。

在不利的天气条件下，自主飞行的气球已经学会了完全靠自己来改变航向。它们自发地完成了这一过程，让所有人都感到震惊，尤其是参与这个项目的研究人员。

▲ 在 Loon 项目中控制气球飞行的人工智能学会了一种迎风航行的技术

“当第一个被允许完全执行这种技术的气球创造了从波多黎各到秘鲁的飞行时间记录时，我们马上意识到自己被打败了，”坎迪多在一篇关于该项目的博客文章中写道，“我从来没有像这样，同时感到自己既聪明又愚蠢。”

富有创造力的人工智能

当人工智能在设备中被放任自流时，很可能就会发生这样的事情。与传统的计算机程序不同，人工智能的设计目的就是探索和开发新的方法，以完成人类工程师没有明确告诉它们的任务。

然而，在学习如何完成这些任务的同时，人工智能有时会想出一种极富创造力的方法，甚至会让一直使用这种系统的人大吃一惊。这可能是一件好事，但同时也可能使人工智能控制的一切变得不可预测，甚至可能带来危险。例如，机器人和自动驾驶汽车最终可能做出将人类置于危险境地的决定。

人工智能系统怎么可能 “智胜”它的人类主人呢？我们能否以某种方式约束机器智能，以确保不致某些不可预见的灾难？

▲ 随着人工智能开始应用于现实世界，了解它们是否会做一些意想不到的事情是很重要的

在人工智能研究界，有一个关于人工智能创造力的例子似乎被引用得最多。佐治亚理工学院的马克 • 里德尔表示，真正让人们对人工智能的能力感到兴奋的时刻，是 DeepMind 的人工智能机器学习系统 AlphaGo 如何掌握围棋这一古老的游戏，然后击败了世界上最优秀的人类棋手之一。DeepMind 是一家创立于 2010 年的人工智能公司，在 2014 年被谷歌收购。

里德尔解释道：“事实证明，它们可以用一些以往从未有人用过——或者至少很多人不知道——的新策略或新技巧，来对付人类棋手。”

然而，即使是这样一场单纯的围棋游戏，也会引起人们不同的感受。一方面，DeepMind 自豪地描述了其系统 AlphaGo 的 “创新”之处，并揭示了围棋，这一人类已经玩了数千年的游戏的新玩法。另一方面，一些人质疑如此有创造性的人工智能有朝一日是否会对人类构成严重威胁。

在 AlphaGo 取得历史性胜利后，澳大利亚西悉尼大学的机器学习、电子学和神经科学研究者乔纳森 • 塔普森写道：“认为我们能够预测或管理人工智能最坏的行为是很可笑的，我们实际上无法想象它们可能的行为。”

里德尔表示，我们需要记住的重要一点是，人工智能并不真正像人类那样思考。它们的神经网络确实是受到了动物大脑的启发，但更确切地说，它们是所谓的 “探索设备”。当它们试图解决一个任务或问题时，并不会带有很多（如果有的话）对更广阔世界的先入之见。它们只是尝试——有时是数百万次——去找到一个解决方案。

“我们人类有很多思想上的包袱，我们会考虑规则，”里德尔说，“人工智能系统甚至不理解规则，因此它们可以随意地拨弄事物。”

里德尔补充道，在这种情况下，人工智能可以被描述为具有 “学者症候群”的硅等量物。所谓学者症候群，通常是指一个人有严重的精神障碍，但却在某种艺术或学术上拥有非凡的能力，其天赋通常与记忆有关。

不断带给我们惊奇

人工智能让我们感到惊奇的方式之一，是它们能够使用相同的基本系统来解决根本不同的问题。最近，一款机器学习工具就被要求执行一项非常不同的功能：下国际象棋。

该系统被称为 “GPT-2”，由非营利的人工智能研究组织 OpenAI 开发。GPT-2 利用数以百万计的在线新闻文章和网页信息进行训练，可以根据句子中前面的单词预测下一个单词。开发者肖恩 · 普莱瑟认为，国际象棋的走法可以用字母和数字的组合来表示，因此如果根据国际象棋比赛的记录来训练算法，这一工具就可以通过计算理想的走法序列来学习如何下棋。

普莱瑟对 GPT-2 系统进行了 240 万场国际象棋比赛的训练。“看到象棋引擎变成现实真是太酷了，”他说，“我当时根本不确定这能不能行得通。”但 GPT-2 做到了。尽管它的水平还比不上专门设计的国际象棋计算机，但已经能够成功地完成艰苦的比赛。

普莱瑟表示，他的实验表明 GPT-2 系统具有许多尚待探索的能力，堪称一个具有国际象棋天赋的专家。该软件后来的一个版本让网页设计人员大为震惊，当时，一位开发人员对其进行了简单的训练，让它写出用于在网页上显示项目（如文本和按钮）的代码。尽管只有一些简单的描述，如 “表示‘我爱你’的红色文本和带有‘ok’的按钮”，但这个人工智能依然生成了适当的代码。很显然，它已经掌握了网页设计的基本要领，但所受的训练却少得惊人。

长期以来，人工智能给人们留下的深刻印象主要来自电子游戏领域。在人工智能研究界，有无数例子揭示了算法在虚拟环境中所做到的事情有多么令人惊讶。研究者经常在诸如电子游戏等空间中对算法进行测试和磨练，以了解它们到底有多强大。

2019 年，OpenAI 因为一段视频登上了新闻头条。视频中，一个由机器学习控制的角色正在玩捉迷藏游戏。令研究人员惊讶的是，游戏中的 “寻找者”最终发现，它们可以跳到物品上方进行 “冲浪”，从而进入 “躲藏者”所在的围栏。换言之，“寻找者”学会了为了自己的利益而改变游戏规则。

反复试错的策略会带来各种有趣的行为，但并不总能带来成功。两年前，DeepMind 的研究员维多利亚 · 克拉科夫娜邀请她博客的读者分享人工智能解决棘手问题的故事，但要求解决问题的方式是不可预测或不可接受的。

她整理出了一长串很吸引人的例子。其中有一个游戏算法，在第 1 关结束时学会了自杀，以避免在第 2 关死亡，这就实现了在第 2 个关卡中不死的目标，只不过采用了一种特别令人印象深刻的方式。另一个算法发现，它可以在游戏中跳下悬崖，并将对手带向毁灭；通过这种方式，人工智能得到了足够的点数以获得额外的生命，从而在无限循环中不断重复这种自杀策略。

纽约大学坦登工程学院的电子游戏人工智能研究者朱利安 · 托格里乌斯试图解释这其中发生的一切。他表示，这些都是 “奖励分配”错误的典型例子。当人工智能被要求完成某件事时，它可能会找到一些奇怪的、出乎意料的方法来实现目标，并最终证明这些方法是正确的。人类很少采取这样的策略，指导我们如何游戏的方法和规则十分重要。

托格里乌斯及其同事发现，当人工智能系统在特殊条件下接受测试时，这种目标导向的偏见会暴露出来。在最近的实验中，他的团队发现，被要求在银行进行投资的游戏人工智能角色会跑到虚拟银行大厅附近的一个角落，等待获得投资回报。托格里乌斯指出，这个算法已经学会了将跑到拐角处与获得金钱回报联系起来，尽管这种运动与得到多少回报之间并没有实际的关系。

托格里乌斯表示，这有点像人工智能在发展迷信，在得到了某种奖励或惩罚之后，它们开始思考为什么会得到这些。

这是 “强化学习”的陷阱之一。所谓 “强化学习”，是指人工智能最终会根据它在环境中遇到的情况设计出判断错误的策略。人工智能不知道自己为什么会成功，它只能将自己的行动建立习得联想的基础上。这有点像人类文化早期阶段时，将祈祷仪式与天气变化联系起来的行为。

▲ 鸽子可以学会将食物与某些行为联系起来，而人工智能会表现出类似的耦联行为

一个有趣的例子是，鸽子也会出现这样的行为。1948 年，一位美国心理学家发表了一篇论文，描述了一个不寻常的实验：他将鸽子放在围栏里，间歇性地给予食物奖励。这些鸽子开始将食物与它们当时正在做的事情联系起来，有时是拍打翅膀，有时是舞蹈般的动作。然后，它们会重复这些行为，似乎期待着奖励会随之而来。

用新办法解决老问题

托格里乌斯所测试的游戏人工智能与心理学家所使用的活体动物之间有着巨大的差异，但托格里乌斯暗示，其中起作用的似乎是相同的基本机制，即奖励与特定行为错误地联系在一起。

人工智能研究者可能会对机器学习系统所选择的路径感到惊讶，但这并不意味着他们对机器学习系统感到敬畏。DeepMind 的深度学习研究科学家拉亚 • 哈德赛尔表示：“我从不觉得这些人工智能有自己的想法。”

哈德赛尔对许多人工智能系统进行了试验，发现它们能对她或她同事未曾预料的问题提出有趣和新颖的解决方案。她指出，这正是研究人员应该致力于增强人工智能的原因，因为这样，它们就可以完成人类自己无法完成的事情。

哈德赛尔还认为，使用人工智能的产品，比如自动驾驶汽车，可以经过严格测试，以确保任何不可预测性都在一定的可接受范围内。“你可以对基于经验证据的行为做出合理的保证，”她说道。

在这一点上，只有时间才能证明所有销售人工智能产品的公司是否都如此小心谨慎。但与此同时，值得注意的是，人工智能表现出的意外行为绝不仅仅局限于研究环境，而是已经进入了商业产品领域。

2020 年，在德国柏林的一家工厂里，由美国强化学习机器人技术公司 Covariant 开发的一款机器人手臂在物品经过传送带时，展现出了意想不到的分类方法。尽管没有专门的程序，但控制手臂的人工智能学会了瞄准透明包装的物品中心，以确保其每次都能成功地将物品抓起来。由于这些物品是透明的，在重叠时可能会混在一起，因此瞄准不精确意味着机器人可能无法抓起物品。

Covariant 的联合创始人兼首席执行官陈曦（Peter Chen）说：“它避免了物体的重叠角，而是瞄准了最容易拾取的表面。这真的让我们很吃惊。”

无独有偶，哈德赛尔的团队最近试验了一款机器人手臂，可以通过形状分类孔洞来选取不同的物品。一开始机器人的手臂很笨拙，在人工智能的控制下，它通过不断地拿起和放下物品进行学习；最终，机器人可以在物品进入正确位置时将其抓住，并将物品很容易地放入适当的孔洞，而不是试图用钳子摆弄它。

所有这些都印证了 OpenAI 研究管理者杰夫 · 克伦的观点，即人工智能的探索性是其未来成功的基础。近年来，克伦一直在与世界各地的同行合作，收集人工智能以出人意料的方式开发出问题解决方案的例子。

克伦说：“随着我们不断扩展这些人工智能系统的规模，可以看到，它们正在做着一些富有创造性且令人印象深刻的事情，而不只是表现出学术上的好奇心。”

如果人工智能系统能找到更好的方法来诊断疾病，或者向有需要的人群运送紧急物资，它们就可以挽救更多的生命。克伦补充道，人工智能有能力找到解决老问题的新方法。但他也认为，开发这类系统的人需要对其不可预测的本质保持开放和诚实，以帮助公众了解人工智能的工作机制。

毕竟，这是一把双刃剑。人工智能的承诺和威胁一直同时存在，它们接下来会想到什么？这是耐人寻味的问题。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。