谷歌 Gemini 1.5 炸场：能处理 1 小时视频、11 小时音频、3 万行代码、70 万文字

2024-02-16 08:50IT之家 - 故渊

感谢IT之家网友 HH_KK、软媒新友1933769、大眼夹的线索投递！

IT之家 2 月 16 日消息，谷歌近日发布新闻稿，宣布推出全新的 Gemini 1.5 AI 模型，标志着该公司的人工智能技术取得了重大飞跃。

谷歌表示相比较前代产品 Gemini 1.0 Ultra，1.5 新模型在多个方面都取得了长足进步，能够更高效、更长时间地处理信息。

Alphabet 与 Google 公司首席执行官孙达尔・皮柴（Sundar Pichai）表示：

我们上周推出了功能强大的 Gemini 1.0 Ultra 模型，并从 Gemini Advanced 开始，让谷歌产品在实用性上迈上新台阶。
开发者和云计算客户今天开始可以使用 1.0 Ultra 开始构建，在 AI Studio 和 Vertex AI 中使用我们的 Gemini API。

在推出 Gemini 1.5 的同时，谷歌继续将安全性和人工智能模型的快速发展放在首位。根据皮查伊的说法，Gemini 1.5 Pro 可达到与 1.0 Ultra 模型相当的质量，同时使用更少的计算能力，因此效率更高。

Gemini 1.5 Pro 可以处理 128000 个 token 的标准情境窗口，但仅限特定开发人员和企业客户使用的版本可以处理多达 100 万个 token。

能处理 100633 行代码中问题

这意味着什么？谷歌表示：“1.5 Pro 可以一次性处理大量信息，包括 1 小时的视频、11 小时的音频、超过 3 万行代码的代码库或超过 70 万字的文字。在我们的研究中，我们还成功测试了多达 1000 万个标记。”

Gemini 1.5 Pro 正在检查阿波罗 11 号登月任务中长达 402 页的 PDF 文稿。谷歌甚至给出了一张靴子即将踏下的简短图画，它就能回答这是尼尔・阿姆斯特朗（Neil Armstrong）登月的相关信息。

能处理 402 页的 PDF 文档

下面是 Gemini 1.5 Pro 处理巴斯特-基顿（Buster Keaton）44 分钟无声电影（696,000 个 token）的情况，它能够分析情节点和其他事件以提及时间码，甚至还能回答多种模式的提示（例如提供一个简短的草图并询问场景是什么）：

能处理 44 分钟长的视频

IT之家附上报告原文地址，感兴趣的用户可以深入阅读。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。