两大可商用开源大模型同时发布,性能不输 LLaMA,羊驼家族名字都不够用了

从 Meta 的 LLaMA 发展出的羊驼家族一系列大模型,已成为开源 AI 重要力量。

但 LLamA 开源了又没全开,只能用于研究用途,还得填申请表格等,也一直被业界诟病。

好消息是,两大对标 LLaMA 的完全开源项目同时有了新进展。

可商用开源大模型来了,还一下来了俩:

MosaicML 推出 MPT 系列模型,其中 70 亿参数版在性能测试中与 LLaMA 打个平手。

Together 的 RedPajama(红睡衣)系列模型,30 亿参数版在 RTX2070 游戏显卡上就能跑。

对于这些进展,特斯拉前 AI 主管 Andrej Karpathy 认为,开源大模型生态有了寒武纪大爆发的早期迹象。

MPT,与 LLaMA 五五开

MPT 系列模型,全称 MosaicML Pretrained Transformer,基础版本为 70 亿参数。

MPT 在大量数据(1T tokens)上训练,与 LLaMA 相当,高于 StableLM,Pythia 等其他开源模型。

支持 84k tokens 超长输入,并用 FlashAttention 和 FasterTransformer 方法针对训练和推理速度做过优化。

在各类性能评估中,与原版 LLaMA 不相上下。

除了 MPT-7B Base 基础模型外还有三个变体。

MPT-7B-Instruct,用于遵循简短指令。

MPT-7B-Chat,用于多轮聊天对话。

MPT-7B-StoryWriter-65k+,用于阅读和编写故事,支持 65k tokens 的超长上下文,用小说数据集微调。

MosaicML 由前英特尔 AI 芯片项目 Nervana 负责人 Naveen Rao 创办。

该公司致力于降低训练神经网络的成本,推出的文本和图像生成推理服务成本只有 OpenAI 的 1/15。

RedPajama,2070 就能跑

RedPajama 系列模型,在 5TB 的同名开源数据上训练而来(前面提到的 MPT 也是用此数据集训练)。

除 70 亿参数基础模型外,还有一个 30 亿参数版本,可以在 5 年前发售的 RTX2070 游戏显卡上运行。

目前 70 亿版本完成了 80% 的训练,效果已经超过了同规模的 Pythia 等开源模型,略逊于 LLamA。

预计在完成 1T tokens 的训练后还能继续改进。

背后公司 Together,由苹果前高管 Vipul Ved Prakash,斯坦福大模型研究中心主任 Percy Liang,苏黎世联邦理工大学助理教授张策等人联合创办。

开源模型发布后,他们的近期目标是继续扩展开源 RedPajama 数据集到两倍规模。

One More Thing

来自南美洲的无峰驼类动物一共 4 种,已被各家大模型用完了。

Meta 发布 LLaMA 之后,斯坦福用了 Alpaca,伯克利等单位用了 Alpaca,Joseph Cheung 等开发者团队用了 Guanaco。

以至于后来者已经卷到了其他相近动物,比如 IBM 的单峰骆驼 Dromedary,Databricks 的 Dolly 来自克隆羊多莉。

国人研究团队也热衷于用古代传说中的神兽,如 UCSD 联合中山大学等推出的白泽。

港中文等推出的凤凰……

最绝的是哈工大基于中文医学知识的 LLaMA 微调模型,命名为华驼

参考链接:

  • [1] https://www.mosaicml.com/blog/mpt-7b

  • [2]https://www.together.xyz/blog/redpajama-models-v1

  • [3]https://twitter.com/karpathy/status/1654892810590650376?s=20

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享