英伟达又双叒迎来强劲挑战者了。
成立于 2016 年的初创公司 Groq 在最新一轮融资中筹集了 6.4 亿美元,由 BlackRock Inc. 基金领投,并得到了思科和三星投资部门的支持。
目前,Groq 的估值已经达到 28 亿美元。公司创始人 Jonathan Ross 曾在谷歌从事 TPU 芯片的开发,而 Groq 目前的顶梁柱 LPU 也是专门用于加速 AI 基础模型,尤其是 LLM。
Ross 表示,一旦人们看到在 Groq 的快速引擎上使用大语言模型有多么方便,LLM 的使用量将会进一步增加。
以更低的价格和能耗,达到与英伟达芯片相同的速度,甚至更快,让 Groq 有底气叫板英伟达。值得一提的是,Groq 还宣布,图灵奖得主 LeCun 即将担任技术顾问。LeCun 的正式加入,成为 Groq 在竞争激烈的芯片领域一个强大的盟友。
天下武功,唯快不破。而能打败每秒响应 800 个 token 的 Groq 只有下一代的 Groq。
从 500 token 到 800 token 再到 1256.54 token / s,Groq 如此之快的速度可谓是让一众 GPU 望尘莫及。
随着 7 月初新功能的低调发布,Groq 现在的结果要比之前演示的要快得多,也智能得多,不仅支持文本查询,还能输入语音命令进行查询。
默认情况下,Groq 的网站引擎使用 Meta 的开源 Llama3-8b-8192 大语言模型。
用户还可以选择更大的 Llama3-70b,以及来自 Google 的 Gemma 和 Mistral 模型,并且很快也将支持其他模型。
这种快速且灵活的体验对于开发者来说非常重要。在传统 AGI 处理数据时,等待是稀松平常的事情,要看着字符一个一个吐出来再进行下一步的操作。
而在最新版本的 Groq 中,以上任务几乎全部瞬间回答,快如闪电。举个栗子。比如,在 Groq 上让它评论 VB Transform 活动议程有哪些地方可以加以改进。
1225.15token / s 的速度 —— 几乎就在一瞬间回答就弹了出来。
而且内容也十分详细清楚,包括建议更清晰的分类、更详细的会议描述和更好的演讲者简介等等,共十点修改意见。
当语音输入要求推荐一些优秀的演讲者以使阵容更加多样化时,它立即生成了一份名单,姓名、所属组织和可供选择的演讲主题给你安排的明明白白的,并且以清晰表格格式呈现。
要求它追加一列联系方式,也瞬间补充好邮箱地址和推特账号,不在话下。
再举个栗子。视频中巴拉巴拉说了一分多钟,要求 Groq 为下周的演讲课程创建一个日程表格。
Groq 不仅耐心地听懂了,创建了要求的表格,还允许快速轻松地进行修改,包括拼写更正。
还可以改变主意,要求它为我忘记要求的内容创建额外的栏目,耐心高效细致,甲方眼里的完美乙方不过如此。
还可以翻译成不同的语言。有时会出现发出了几次请求才做出更正的情况,但这种错误一般是在 LLM 层面,而不是处理层面。
可以说,从 500 token / s 到 800 token / s 再到如今直接拉到每秒四位数的生成速度,把 GPT-4 和英伟达秒的更彻底了。
当然,除了「快」之外,此次更新的另一亮点是除了引擎内直接输入查询,还允许用户通过语音命令进行查询。
Groq 使用了 OpenAI 的最新开源的自动语音识别和翻译模型 Whisper Large v3,将语音转换为文本,然后作为 LLM 的提示。
提速增效再加多模态输入,不卡顿还能不打字,这种创新的使用方式为用户提供了极大的便利。
7 月 17 日,Groq 的研究科学家 Rick Lamers 又在推特上官宣了一个「秘密项目」—— 微调出的 Llama3 Groq Synth Tool Use 模型 8B 和 70B 型号,旨在提升 AI 的工具使用和函数调用能力。
团队结合了全量微调和直接偏好优化(DPO),并且完全使用符合道德规范的生成数据,没有涉及任何用户数据。
伯克利函数调用排行榜(Berkeley Function-Calling Leaderboard, BFCL)中的数据全部来源于真实世界,专门用于评估 LLM 调用工具或函数的的能力。
Groq 本次发布的微调 Llama3 8B 和 70B 的版本都在 BFCL 上取得了相当惊艳的成绩,总体准确率分别为 90.76% 和 89.06%。
其中,70B 版本的分数超过了 Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 Pro 等专有模型,达到了 BFCL 榜单第一的位置。
两个版本的模型都已开源,用户可从 HuggingFace 上下载权重或通过 GroqCloud 访问。
HugggingFace 地址:https://huggingface.co/Groq
此外,Groq 还在 Llama 3 的基础上进一步发挥自己「唯快不破」的秘籍,推出了一款名为 Groqbook 的应用程序,可以在 1 分钟内内生成出一整本书。
根据 GitHub 主页的介绍,Groqbook 混合使用了 Llama3-8B 和 70B 两个模型,用较大模型生成结构,再让较小模型创作具体内容。
目前,这个程序只适用于非虚构类书籍,并需要用户输入每一章节的标题作为上下文。
Groq 表示,未来将让 Groqbook 生成整本书内容,并扩展到虚构类书籍,创作出高质量的小说。
解决了用户使用的核心痛点,Groq 自然备受使用者欢迎。
上线 4 个月后,Groq 已经开始免费提供服务来处理 LLM 工作负载,吸引了超过 28.2 万名开发者使用。
Groq 提供了一个平台供开发者构建他们的应用程序,类似于其他推理服务提供商。
然而,Groq 的特别之处在于,它允许在 OpenAI 上构建应用程序的开发者通过简单的步骤在几秒钟内将他们的应用程序迁移到 Groq。
Ross 表示他将很快专注于需求量极大的企业市场。大公司正在广泛推进 AI 应用的部署,因此需要更高效的处理能力来应对他们的工作负载。
Groq 表示,其技术在最坏情况下使用的功率约为 GPU 的三分之一,而大多数工作负载仅使用十分之一的功率。
在 LLM 工作负载不断扩展、能源需求持续增长的背景下,Groq 的高效性能对 GPU 主导的计算领域构成了挑战。
Nvidia 虽然擅长 AI 训练但在推理方面存在局限,Groq 的芯片在推理速度和成本上都有数倍优势,未来推理市场的份额将从现在的 5% 提升到 90%-95%。
Ross 自信声称,到明年底将部署 150 万个 LPU,占据全球推理需求半壁江山。
目前来说,模型训练虽然首选 GPU,但是部署 AI 应用程序时,更高的效率和更低的延迟也极为重要。
正如 Groq 第一次闯入大众视野是因为一个字,「快」,Groq 此次提速继续在速度的赛道狂飙。
Groq 承诺可以比竞争对手更快更经济地完成任务,在一定程度上得益于其语言处理单元(LPU)。
相比 GPU,LPU 减少了管理多个线程的开销,并避免了核心利用率不足。此外,Groq 的芯片设计还允许连接多个专用核心,而不会出现 GPU 集群中出现的传统瓶颈。
LPU 的工作原理和 GPU 存在显著差异,具体来说,LPU 采用的是时序指令集计算机(Temporal Instruction Set Computer)架构,这一架构的特性就是无需像依赖高带宽存储器(HBM)的 GPU 那样,频繁地从内存中加载数据。
LPU 不依赖外部内存,其权重、键值缓存(KV Cache)和激活函数等数据在处理期间全部存储在芯片内,不仅能够巧妙规避 HBM 短缺所带来的困扰,还能切实有效地削减成本。
与 Nvidia GPU 对高速数据传输的依赖有所不同,Groq 的 LPU 在其系统架构中并未采用 HBM,而是选用了 SRAM。
由于每块芯片只配备了 230MB 的 SRAM,没有任何复杂的模型能够仅通过单个芯片运行。值得一提的是,SRAM 的速度相较 GPU 所使用的存储器约快 20 倍。
鉴于 AI 的推理计算所需的数据量相较于模型训练大幅减少,Groq 的 LPU 展现出更为出色的节能优势。
在执行推理任务时,其从外部内存读取的数据量显著降低,所消耗的电量也明显低于 GPU。
遗憾的是,英伟达的 GPU 可以同时用于训练和推理,但 LPU 仅为模型推理设计。
参考资料:
https://venturebeat.com/ai/groq-releases-blazing-fast-llm-engine-passes-270000-user-mark/
https://the-decoder.com/ai-startup-groq-raises-640-million-to-challenge-nvidias-dominance-in-ai-chips/
本文来自微信公众号:微信公众号(ID:null),作者:新智元
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。