收录 250 亿个 Token，Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

2024-02-23 17:34IT之家 - 漾仔

IT之家 2 月 23 日消息，Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。

IT之家注意到，该数据集内容均由 Mixtral 7b 模型汇总生成，其中收录 3000 万以上文本文件，包含大量教科书、博客文章、故事小说、WikiHow 教程等内容，共计 250 亿个 Token。

据悉，Cosmopedia 数据集除了收录上述文本文件外，还为每条文件提供了标注信息，其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集 Cosmopedia-100k，供用户轻松管理和使用。

Hugging Face 表示，这次开源的数据集为 0.1 版本，未来团队还将持续更新该数据集，推进业界 AI 训练发展，感兴趣的小伙伴可以点此访问项目地址。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。