谷歌 DeepMind 核心大佬被曝离职创业：瞄准 AI 智能体，曾是 Gemini 关键负责人

新智元
2024-01-31 14:18

AI 智能体实火！谷歌被曝出 DeepMind 核心技术大佬离职，连 Gemini 项目的主要开发者也留不住了。

谷歌又被曝出有核心员工离职了！这次跑路的竟是 DeepMind 的核心技术大佬，Gemini 项目的四位主创之一，Ioannis Antonoglou。

上图左半部分列出了 Gemini 项目的 36 位领导者，自去年九月以来，包括 Ioannis Antonoglou 在内，已有四位主要成员离开。

Ioannis Antonoglou

在 OpenAI 以及背后微软的挤压之下，谷歌的日子貌似不太好过。去年裁员 12000 多人，光遣散费就花了几十亿美元，劈柴还宣布今年要持续裁员一整年。

而一边的 OpenAI 也在花心思挖角谷歌的高级人才。另一方面，AI 行业的大佬们在大模型带来的变革中发现了新的风口，—— 比如 AI 智能体（Agent）。

越来越多的初创公司试图在这个领域崭露头角，Antonoglou 这次离职的目标就是创办自己的人工智能公司，并瞄准 Agent 这个市场。

Antonoglou 目前的两位合伙人，Sherjil Ozair 和 Misha Laskin，也是之前一起参与 Gemini 项目的同事。据一位知情人士透露，他们已经开始为自己的初创企业筹集资金。

—— 谷歌的科技帝国开枝散叶...... 也未尝不是一件好事？当然，如果这家新公司决定涉足智能体领域，也将面临众多竞争对手。

近期的初创公司，包括获得 General Catalyst 支持的 Adept（已筹集 4.3 亿美元）和获得 Nvidia 支持的 Imbue（已筹集超过 2 亿美元），都在从事智能体的研发。

其他的初创公司还包括 HyperWrite 和 Lindy，而大公司没准也会来插一脚。

Antonoglou 于 2012 年加入 DeepMind。2013 年，Antonoglou 作为七位作者之一，发表了一篇关于深度强化学习的论文，能够在无需人类干预的情况下学习，并掌握 Atari 视频游戏。

这篇工作在 NIPS 2013 的 Deep Learning Workshop 中展示，而这一突破也引起了谷歌和 Facebook 领导层的注意，他们认识到这可以用于增强自己的广告业务。

2014 年，谷歌以超过 5 亿美元的价格收购了只有约有 75 名员工的 DeepMind。之后 Antonoglou 参与开发了击败围棋顶尖人类选手的 AI。

有趣的是，OpenAI 的团队也受此影响，采用类似技术开发了一个能玩 Dota 2 的 AI 系统。

还有上面提到的 Antonoglou 的合伙人 Sherjil Ozair 也是业内的大佬。

Ozair 去年夏天离开 DeepMind 加入 Tesla，他之前也同 Antonoglou 合作发表过一些文章，比如下面这篇来自 PMLR'2021。

而他更加有名的一篇工作是我们大部人都非常熟悉的「GAN」（生成对抗网络）。

这篇开创性的工作为后续生成式 AI 模型的发展奠定了基础。

「开枝散叶」

除了上面介绍的大佬，在过去两年里，DeepMind 和 Google Brain 的一些员工纷纷离职，开创了自己的新公司。

包括开发开源 AI 模型的 Mistral AI，以及同样致力于生成式 AI 模型的 Sakana AI 和 Reka AI。

最近，又有三位在谷歌负责图像和音乐方向的 AI 研究人员离职，据知情人士透露，他们成立了自己的 AI 初创公司 Uncharted Labs。

这也揭示了谷歌内部可能存在的结构性问题，推出的 AI 产品错失良机，而顶尖的研究人员则决定抓住外部机遇，抓住风险投资者对 AI 领域新公司的热情。

文件显示，这三位创始人已经筹集了 850 万美元，最近几个月，他们还会见了包括 Andreessen Horowitz 在内的潜在投资者。

三人团队的总裁是 David Ding，他此前是 Google DeepMind 的技术负责人。

而另外两位 Charlie Nash 和 Yaroslav Ganin，是 Ding 之前在 DeepMind 的团队成员。Ding 和 Ganin 在谷歌工作了五年以上。

Ding 之前的团队还有一名成员 Conor Durkan 也在去年离职了。在 DeepMind，这四个人参与了一个项目，使 AI 能够根据用户的简单描述创造出原创的图像和音乐。

去年 11 月，DeepMind 公开了音乐生成模型 Lyria，能够从头开始创作歌曲，包括利用 Charlie Puth 和 John Legend 等艺术家的人声。

这几个人还参与了 Imagen 2 的开发，作为 Midjourney 和 DALL・E 3（OpenAI ）的竞品。

面对这不容乐观的水土流失，谷歌被逼无奈，只好咬牙提高顶尖 AI 研究人才的待遇，使用特别的股票奖励措施。

然而，对于那些致力于生成式 AI 的初创公司来说，轻松获得风险投资的吸引力极大。

根据 PitchBook 和 National Venture Capital Association 的数据显示，2023 年在美国，超过三分之一的风险投资涌向了 AI 领域。

AI 智能体未达预期

AI 智能体的概念随着生成式 AI 大模型的发展而开始流行，Agent 可以自动帮助人类处理线上购物、订票、会议等。

比如 AutoGPT 和 BabyAGI，承诺能做到从预订机票到回复短信等一切自动化操作。然而，它们很快就暴露出了技术上的限制。

包括 OpenAI 推出的相关产品，目前也没有什么实质性的进展。

现有的 Agent 执行任务的能力参差不齐，还容易重复相同的行为模式，研究人员正也尝试新的方法解决这些问题，比如开发更适合智能体任务的专用软件，而不是依赖现成的模型。

HyperWrite 的联合创始人兼 CEO Matt Shumer 表示，AI 智能体之所以未能如预期般发展，有几个原因。

目前的智能体虽然能够规划并将目标分解成子任务（比如将竞争对手研究，分解为评估管理层、预测销售额和成本计算），但是在执行这些子任务时往往遇到困难。

同自动驾驶一样，智能体经常会被从未遇到过的「边缘情况」所困扰，这种失败可能会削弱消费者的信任。

另外，这个行业似乎面临着与大型语言模型开发商同样的问题：他们正试图用风险资本解决一个长期的研究问题，而投资者却希望尽早看到成品和投资回报。

解决方案

传统的 AI 智能体通常由三部分构成：

一是像 GPT-4 这样的大语言模型，负责规划完成目标所需的任务；二是向量数据库，帮助智能体记住以往的行动和目标相关的重要背景信息；三是 LangChain 等工具，负责将这些组件连接起来。

而 HyperWrite 正在尝试一种截然不同的结构。根据请求的复杂程度，HyperWrite 能将客户的请求分配给不同的模型处理。

Shumer 表示，GPT 等传统大语言模型仅能处理简单的网络搜索，而 HyperWrite 的定制模型则更擅长分析网页内容并与之交互，如点击不同的按钮。HyperWrite 目前已有数千名付费用户。

与此类似，Imbue 也在开发多种模型，包括大语言模型和多模态模型，以帮助 AI 智能体解决软件编码等问题。

为此，Imbue 团队特别标注训练数据，使模型能够理解博客文章或软件代码背后的逻辑。

Imbue 的开发者会对模型训练数据中的代码行进行注释，说明它们是如何为更大的软件项目贡献的。这样一来，模型便能学会单行代码如何协同工作，共同实现一个更广泛的目标。

另一种智能体的发展方向是专注于特定的任务。

比如，Imbue 使用了多个专门解决特定问题的智能体，从修正代码格式错误到分析 AI 政策趋势。这种专注于特定领域的方法减少了智能体遇到的问题边缘情况。

Shumer 认为，随着时间的推移，通用型模型将最终超越专用于特定任务的模型，但 CRV 的 Vivian Cheng 认为，由于技术还处于初期阶段，短期到中期内很难开发出一个可靠的通用型智能体。

—— 也许「通用」和「专用」会在未来的某个时间点相遇吧，让我们拭目以待。

参考资料：

https://www.theinformation.com/articles/google-deepmind-veteran-departs-to-launch-ai-agent-startup?rc=epv9gi

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。