新智元报道
编辑:编辑部
【新智元导读】成立 9 个月,当初那个「6 人团队,7 页 PPT,8 亿融资」的公司不断缔造传奇。Mistral AI 今日发布的 Mistral Large 模型性能已经直逼 GPT-4,同时和微软官宣合作。「下一个 OpenAI」的爆相,已经越来越明显了。
下一个 OpenAI 来了?
开源社区的另一个中心 Mistral AI,刚刚发布了最强力的旗舰模型 Mistral Large,性能直接对标 GPT-4!(但可惜的是没有开源)
Mistral Large 具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。
在众多主流基准测试中,Mistral Large 力压 Anthropic 的 Claude 2 和谷歌的 Gemini Pro,成绩仅次于 GPT-4!
LLM 领域,格局再次改变。
同时,就在今天,AI 圈又一重磅消息曝出:继 OpenAI 之后,微软将 Mistral 也纳入麾下!
Mistral 从诞生之初,就充满传奇的光环。成立 4 周,6 人团队,7 页 PPT,8 亿融资(1.05 亿欧元),简直堪称爽文走进现实。
创始人 Arthur Mensch 是 1993 年出生的法国小伙,在谷歌工作 3 年后,在自己 31 岁时离开谷歌,拉拢了两位 Llama 模型的开发者,一起创立了这个日后可以和 OpenAI、Anthropic 分庭抗礼的公司。
几个人的团队,极少的融资,做出的模型却可以和 GPT-4 掰手腕。如今再加上金主爸爸微软的撑腰,Mistral 「下一个 OpenAI」的名头,是坐实了。
现在,正处于全世界聚光灯下的 Mistral,一举一动都十分引人注目。有网友发现 Mistral 修改了网站内容,删除了所有提及开源社区义务的内容,这立马引发了恐慌!
不过,大家目前还不需要太过担心。
根据外媒对 Mistral CEO 的采访,未来他们依然会坚持开源理念,但是同时也会推出性能最为强大的闭源模型参与商业竞争。
现在他们已经完成了以规模命名的开源模型:Mistral 7B 和 Mistral 8 x 7B 回馈社区,以「大中小」命名的闭源模型赚钱的产品线搭建。
话说回来,这次发布的 Mistral Large,可以说是最适合欧洲人体质的大模型。
简单来说:
- Mistral Large 能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景。
- Mistral Large 能够处理 32K Token 的上下文内容,使其能够从庞大的文档中精确快速地提取信息。
- Mistral Large 在执行具体指令方面异常精准,这让开发人员可以根据自己的需求定制内容审查政策 —— 例如,Mistral AI 利用它来进行了 le Chat 的系统级别审查。
- Mistral Large 原生支持函数调用。这个特性,结合 Mistral AI 在 la Plateforme 上实施的输出内容限制模式,极大地促进了应用程序的开发和技术栈的现代化。
目前,Mistral AI 的这个新旗舰模型仅在 Azure AI 和 Mistral AI 平台上可用。
其中,在 Azure AI 上的定价如下:输出为 0.024 美元 / 1000 token,输入为 0.008 美元 / 1000 token。
要说 Mistral Large 最令人印象深刻的,还是超强的推理能力。
作为旗舰模型,Mistral Large 在常识、推理以及知识方面,都展现出了令人瞩目的实力。
虽然和 GPT-4 还有不小的差距,但 Claude 2 和 Gemini Pro 1.0 基本上已经是手下败将了。
作为一款欧洲人自己的大模型,Mistral Large 在法语、德语、西班牙语和意大利语上的表现,均优于 Llama 2 70B 模型。
同时,也强过自家更小规模的模型。
在编程和数学方面,Mistral Large 的能力也非常突出。
不仅相比自己其他模型有了大幅的提升,而且在主流的测试基准上都取得了不俗的成绩。
相比之下,规模更小的 Mistral Small,则更加专注于对延迟和成本的优化。
相较于 Mixtral 8x7B,Mistral Small 展现出更优异的性能和更低的延迟,是介于 Mistral AI 开源模型和旗舰模型之间的解决方案。
与 Mistral Large 类似,Mistral Small 同样采用了在 RAG 和函数调用方面的创新技术。
此外,Mistral 还优化了自家的服务接口:
- 提供竞争力价格的开放权重端点,包括 open-mistral-7B 和 open-mixtral-8x7b。
- 推出新的优化模型端点,包括 mistral-small-2402 和 mistral-large-2402,同时继续提供未更新的 mistral-medium。
除了宣布模型之外,Mistral AI 还官宣了和微软的深度合作。而这也是微软继 OpenAI 之后,再次「真金白银」地入股 AI 圈的另一家顶流模型公司。
虽然 2023 年 4 月才成立,Mistral AI 已经对欧洲的 AI 领域产生了重大影响。开源模型 Mistral 7B 和 Mixtral 的发布,惊艳了一众开发者,在 AI 社区掀起了轩然大波。
如今微软的支持,让更多人坚信:Mistral 就是下一个 OpenAI。
Mistral AI 是法国的 AI 初创公司,微软与它的合作,无疑让微软在欧洲也建立起了自己的 AI 影响力。
两家公司的合作,目标是弥补基础 AI 研究与实际解决方案之间的差距。如果在未来建立多年的合作伙伴关系,Mistral AI 就可以访问微软 Azure 的 AI 基础设施了。
微软的加持对 Mistral AI 意味着什么,不言而喻。
不光 Mistral AI 下一代 LLM 的开发和部署会大大加速,并且会开辟出新的商机。以欧洲为基础,Mistral AI 会向全球市场扩张自己的影响力!
具体来说,微软和 Mistral AI 之间的合作集中在以下三个关键领域 ——
超算基础结构:微软将通过 Azure AI 超算基础结构支持 Mistral AI,用于 AI 训练和推理工作负载。
扩展市场:微软和 Mistral AI 将通过 Azure AI Studio 中的 MaaS 和 Azure 机器学习模型目录,向客户提供 Mistral AI 的高级模型。
AI 研发:微软和 Mistral AI 将探索合作,为指定的客户开发专有模型,甚至包括欧洲公共部门的工作负载。
目前,两家公司还没有透露财务细节。
最近,Mistral AI 以近 20 亿美元的估值,筹集了 4.5 亿欧元,由科技投资者 Andreessen Horowitz 领投。
不过,跟它在美国的竞争者比,Mistral AI 所获得的资金显然并不算多。
要知道,OpenAI 仅从微软就获得了超过 100 亿美元的投资,而 Anthropic 从谷歌和亚马逊获得的资金,也高达 60 亿美元。
据《华尔街日报》报道,去年 10 月,谷歌承诺向 Anthropic 投资 20 亿美元因此,此项合作一出,Mistral AI「欧洲版 OpenAI」的名头,更加坐实了。
而对于微软来说,这项投资也是好处多多 —— 这是它在欧洲 AI 领域站稳脚跟的机会。
本来,作为 Azure 云中欧盟服务器上 OpenAI 模型的唯一提供商,微软已经在欧洲的 AI 竞赛中处于领先地位。
不过 AI 在欧洲所受的待遇,并不像在美国那样备受支持。欧洲许多国家对于 AI 的态度偏保守,他们持的是批判性的态度,尤其是在数据保护方面。而如果是欧洲服务器商的欧洲 AI 模型,或许能让人放心,不失为一种不错的补救措施。
Mistral 在种子轮融资时「6 人团队,7 页 PPT,8 亿融资」的故事,值得好好讲一讲。
2023 年初,还在谷歌工作的 Arthur Mensch,刚刚 30 岁。
一年之后,他离开谷歌创立自己的公司,只用了 9 个来月的时间,就已经估值 20 亿美元!
Mensch 于 2020 年初加入了谷歌,成为 DeepMind 的研究员,他的研究方向是提高 AI 和机器学习系统的效率。那时他 27 岁。
后来,他和两位之前一起参与了 Llama 模型研发的年轻人 Timothée Lacroix 和 Guillaume Lample 一起,决定成立一家公司,通过更加高效的方法构建和部署 AI 模型。
他们相信,小团队能力在灵活性上超越硅谷的大公司,而开源模型就是他们实现这一目标的利器。
虽然已经从各路投资者那里筹集了超过 5 亿美元,他的公司 Mistral AI 相比于微软支持的 OpenAI,谷歌,乃至 Anthropic,依然显得有些「微不足道」。
这些巨头,以及巨头重金支持的巨型独角兽投入了几十亿美元来构建全世界最先进的 AI 系统。
但 Mensch 并不担心与这些庞然大物竞争。
「我们的目标是成为 AI 领域中最节省资本的公司,」Mensch 表示。「这是我们成立的初衷。」
对于刚刚推出的 Mistral Large 模型,他认为,这款模型在执行某些推理任务上能够与 OpenAI 最先进的语言模型 GPT-4 和谷歌的新模型 Gemini Ultra 相匹敌。
Mensch 透露,开发这款新模型的成本不到 2000 万欧元(约合 2200 万美元)。
相比之下,OpenAI 的首席执行官 Sam Altman 曾在去年发布 GPT-4 时表示,训练他们公司的大型模型的成本接近 1 亿美元。
而且随着他们用行业内最为高效的开源模型不断震惊业界,他们也获得了微软,英伟达和 Salesforce 等大公司的背书。
巨头们也通过现金或者算力的支持,获取了 Mistral AI 的少量股份。伴随着 Mistral Large 的发布,9 个月前他们用 7 页 PPT 吹下的牛,已经完全兑现了。
这六个人的团队,是这样组成的。
Arthur Mensch 在巴黎综合理工学院和巴黎高等师范学院学习期间,结识了另两位创始人 ——Timothée Lacroix 和 Guillaume Lample。
两人都是 Meta AI 团队的,Lample 甚至领导了 LLaMA 的开发。
几个三十出头的年轻人,在 LLM 开发领域已经有不少经验。
在当时,即使在全世界范围内,具备构建、训练和优化 LLM 专业经验的人,也不超过 100 人。
而另外三位,分别是来自法国巴黎健康初创公司 Alan 的 CEO Jean-Charles Samuelian 和 CTO Charles Gorintin,以及前法国数字事务国务秘书 Cédric O。
Mensch 个头高大,一头浓密的深色头发,他既不像典型的科技极客,也不像常见的 CEO。
他的朋友和同事们说,他总是一边喝啤酒一边轻松地和朋友开玩笑。
作为一名运动爱好者,他在 2018 年提交博士论文前的几个月,以不到三小时半的时间跑完了巴黎马拉松。
Mensch 从小就在学术追求与创业之间徘徊。他出生在巴黎西郊,母亲是物理老师,父亲拥有一家小型科技公司。
这位未来的 CEO 毕业于法国顶级的数学和机器学习院校。他的导师们将他描述为一个热情投入、能够迅速掌握自己几乎没有基础的项目的学生。
「我确实热爱探索新事物,」Mensch 表示。「我很容易感到厌倦。」
在攻读博士期间,Mensch 的研究方向是优化软件,分析核磁共振图像(fMRI)系统的三维大脑图像,让软件能够处理高达数百万的图像量。
2020 年底,Mensch 加入了 DeepMind,在那里他参与开发了大语言模型。
到了 2022 年,他以主要作者的身份发表了著名的「Chinchilla 论文」。
这项研究重新定义了人们对 AI 模型的大小、训练它所需的数据量以及其性能之间关系的认识,被称为 AI 缩放法则。
随着 2022 年 AI 竞赛的升温,Mensch 对于大公司的 AI 实验室减少了关于大语言模型研究成果的发表,减少了与研究社区的分享这一情况表示失望。
ChatGPT 发布后,谷歌决定加速追赶。
Mensch 所在的团队从一个 10 人的小团队变为 30 人,最后扩充成为了一个 70 人的大团队。
「我觉得我在事情变得过于官僚化之前应该离开了,」Mensch 说。「我不想在大型科技公司中开发那些不透明的技术。」
Mistral 在 2023 年春天向投资者提出的最初方案中,批评了由美国公司主导的「正在形成的寡头垄断」,这些公司开发的是专有闭源模型。
对于 Mensch 和他的合伙人来说,将他们的初始 AI 系统作为开源软件发布,允许任何人免费使用或修改,这是一个重要的原则。
这也是吸引开发者和潜在客户的一种方式,他们希望每个人对自己使用的 AI 有更多的控制权。
尽管 Mistral 现在的最先进模型 Mistral Large 并不开源,但 Mensch 表示:
「在构建商业模式和坚持我们的开源价值观之间找到一个平衡点是非常微妙的。我们希望创造新的事物、新的架构,但是还想向我们的客户提供一些额外的产品和服务。」
参考资料:
https://www.wsj.com/tech/ai/the-9-month-old-ai-startup-challenging-silicon-valleys-giants-ee2e4c48?st=htctyj5gooqlcll
https://mistral.ai/news/mistral-large/
https://old.reddit.com/r/LocalLLaMA/comments/1b0o41v/top_10_betrayals_in_anime_history/?continueFlag=e442fb10c2502e2fe0c601afe6270309
本文来自微信公众号:新智元 (ID:AI_era)
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。