【新智元导读】多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI 的全新多模态模型 Gobi 似乎已在筹备中。谷歌和 OpenAI 的这场对决,似乎已是箭在弦上了。
随着今年秋天的临近,谷歌和 OpenAI 的多模态模型之战,也进入到白热化阶段。就在上周,谷歌已经对一些外部公司开放了多模态大模型 Gemini 的功能。
而 OpenAI,当然不会坐以待毙。他们正在争分夺秒地把多模态功能整合进 GPT-4 里,争取推出功能与 Gemini 类似的多模态大模型,一举击杀谷歌。
传说中的多模态功能,在今年 3 月 OpenAI 那场震惊全世界的 GPT-4 发布会上,已经被展示过 ——
在纸上画个草图,拍个照发给 GPT-4,说一声「给我按照这种布局做个网站」,它立马就写出了网页代码。
不过随后,多模态仿佛昙花一现,再也没人见过产品化的实体功能。
所以,谷歌和 OpenAI 的多模态大战,终于要来了吗?
面对传闻中谷歌要击杀自己的这款大杀器,OpenAI 当然不会无动于衷。
据外媒 The Information 爆料,一款名为 Gobi 的全新多模态大模型,已经在紧锣密鼓地筹备了。OpenAI 计划,在 Gemini 发布之前就推出多模态 LLM,彻底击败谷歌。
其实,在 3 月份推出 GPT-4 多模态功能的预览后,OpenAI 已经向一家名为 Be My Eyes 的公司推出了这项功能,但并没有向其他公司提供。从名字就可以看出来,这家公司在研发让盲人或视力不佳人群看得更清楚的技术。
最近,OpenAI 打算更广泛地推出名为 GPT-Vision 的功能。
OpenAI 为什么花了这么长时间?最主要的原因,是他们担心新的视觉功能会被不法分子利用,比如通过自动破解验证码来冒充人类,或者通过面部识别来追踪人类。
不过,对于这些法律上的安全风险,OpenAI 的工程师们似乎已经解决了。同样,一位谷歌发言人也表示:谷歌已经采取了一些措施,防止 Gemini 被滥用。
在 7 月做出的承诺中,谷歌保证会在所有产品中开发负责任的人工智能。
在 GPT-Vision 之后,OpenAI 有可能会推出更强大的多模态大模型,代号为 Gobi。跟 GPT-4 不同,Gobi 从一开始就是按多模态模型构建的。
所以,Gobi 就是传说中的 GPT-5 吗?
现在,我们还无法知晓。Gobi 训练到哪一步了,也没有确切消息。
在 9 月初,DeepMind 联合创始人、现 Inflection AI 的 CEO Mustafa Suleyman,在采访时曾放出一枚重磅炸弹 —— 据他猜测,OpenAI 正在秘密训练 GPT-5。
Suleyman 认为,Sam Altman 最近说过他们没有训练 GPT-5,可能没有说实话。(原话是:Come on. I don't know. I think it's better that we're all just straight about it.)
而在这边,根据试用过 Gemini 的人士,Gemini 产生的幻觉,会比现有的模型都更少。原因详见下文。
总之,谷歌和 OpenAI 的这场多模态模型大战,可以说是 AI 版的 iPhone 和 Android 对决。
一个是称霸 AI 领域多年的硅谷巨头,一个是风头无两的顶流 AI 初创公司,二者差距有多大,所有人都在屏息等待。
另一边,谷歌也在开始邀请部分外部开发者加急测试,即将推出的下一代多模态大模型 Gemini。
上周,The Information 独家报道称,Gemini 可能很快准备好进行测试发布,并会集成到像 Google Cloud Vertex AI 等服务中。
在今年的谷歌 I / O 开发者大会上,劈柴曾公开介绍 Gemini,是一个多模态模型、高效集成工具、API。
为了合力干大事,谷歌还将谷歌大脑,与 DeepMind 实验室进行了合并。
据称,至少有 20 多位高管参与了 Gemini 的研发,DeepMind 的创始人 Demis Hassabis 领导,谷歌创始人 Sergey Brin 参与研发。
还有谷歌 DeepMind 组成的数百名员工,其中包括前谷歌大脑主管 Jeff Dean 等等。
一位测试过的人士说,Gemini 至少在一个方面比 GPT-4 有优势:除了网络上的公开信息外,该模型还利用了大量谷歌消费产品(搜索、Youtube)的专有数据。
因此,Gemini 在理解用户对特定查询的意图时应该特别准确,而且它产生的错误答案,即幻觉,似乎更少。
据此前 SemiAnalysis 分析师的爆料,谷歌的下一代大模型 Gemini,已经开始在新的 TPUv5 Pod 上进行训练,算力高达~1e26 FLOPS,比训练 GPT-4 的算力还要大 5 倍。
另外,Gemini 的训练数据库包含 Youtube 上 936 亿分钟的视频字幕,总数据集规模约为 GPT-4 的两倍。
据称,谷歌下一代大模型也是由多种规模组成,可能使用了 MoE 架构,以及投机采样技术。通过小模型提前生成 token 并传递给大模型进行评估,以提高模型的总体推理速度。
谷歌 DeepMind 的负责人 Hassabis 在采访中曾表示,Gemini 预计花费数千万到数亿美元,与开发 GPT-4 的成本相当。
Gemini 会整合 AlphaGo 中使用的技术,这将赋予系统全新的规划、解决问题的能力。
可以这么说,Gemini 把 AlphaGo 系统的一些优势,和大语言模型惊人的语言能力结合在一起了。并且,我们还有一些其他有趣的创新。
AlphaGo 背后的技术,就是强化学习,这是 DeepMind 首创的技术。
RL 代理随着时间的推移与环境交互,通过反复试验来学习策略,从而最大限度地提高长期累积奖励。
通过强化学习,AI 能够通过反复尝试和接受反馈来调整自己的表现,因而学会处理很棘手的问题,比如在围棋或电子游戏中选择如何采取下一步行动。
另外,AlphaGo 还使用了蒙特卡洛树搜索(MCTS)方法,来探索和记住棋盘上所有可能的动作。
与现有模型相比,Gemini 将大大提高软件开发人员的代码生成能力,谷歌希望用它来追赶微软的 GitHub Copilot 代码助手。
谷歌内部还讨论了,使用 Gemini 来实现图表分析等功能,比如要求模型解释完成图表的含义,以及使用文本或语音指令来浏览网页浏览器或其他软件。
谷歌云开发者平台 Google Cloud Vertex AI 也将得到 Gemini 加持,大小版本都有,这样开发人员就可以付费购买小模型在个人设备上运行。
现在,谷歌已经在全力备战,就等着 Gemini 开启逆袭之路。
7 月,OpenAI 曾公布 GPT-4 API 全面可用,并且在接下来几个月要推出新模型。
这不,就在今天,网友纷纷收到了 gpt-3.5-turbo-instruct 新模型发布的邮件,以代替旧模型 text-davinci-003。
据介绍,gpt-3.5-turbo-instruct 是一个 InstructGPT 风格的模型,其训练方式与 text-davinci-003 类似。
使用方法和以前的 Prompt-Completion 类似,根据提示词的指令补全。
就价格来说,gpt-3.5-turbo 4K 保持一致。
有网友已经开始用上了最新模型,去玩 1800 Elo 左右的国际象棋。而他此前还发现 GPT 根本做不到这一点,但现在看来这只是 RLHF 聊天模型的问题,纯 Completion 模型就成功了。
在对弈中,gpt-3.5-turbo-instruct 轻松击败了 Stockfish 4 级(1700 分),在 5 级(2000 分)的比赛中仍不落下风。
它从不走非法棋步,使用巧妙的开局牺牲,以及令人难以置信的卒与王将死,允许对手毫无实际意义地晋级。
网友用的是如下 PGN 风格的提示来模拟大师级游戏。高亮显示有点错误。GPT 自己走棋,他手动输入了 Stockfish 的棋步。
顺便提一句,OpenAI 即将在 11 月召开的首届开发者大会,已经开始注册了,快上手申请吧。
参考资料:
https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm
https://devday.openai.com/
https://news.ycombinator.com/item?id=37558911#:~:text=Key%20Features%3A%20Gpt%2D3.5%2D,speed%20as%20our%20turbo%20models.
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。