.hd-box .hd-fr

中国电信 AI 研究院完成首个全国产化万卡万参大模型训练，TeleChat2-115B 对外开源

2024-09-28 18:38IT之家(清源)20评

IT之家 9 月 28 日消息，“中国电信人工智能研究院”官方公众号今天宣布，中国电信人工智能研究院（IT之家注：下文称 TeleAI）成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型，并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 ——星辰语义大模型 TeleChat2-115B。

官方表示，这项科研成果标志着国产大模型训练真正实现全国产化替代，正式进入全国产自主创新、安全可控的新阶段。

TeleChat2-115B 基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海 AI 平台”训练完成。据介绍，其在保证训练精度的前提下利用多种优化手段提升模型训练效率和稳定性，实现了 GPU 同等算力计算效率超 93% ，模型有效训练时长占比超 98% 。

针对超大参数模型训练，TeleAI 采用了大量小模型进行 Scaling，进而验证不同模型结构的有效性。同时，在数据配比方面，基于小模型实验结果反馈，采用回归预测模型，得到较优数据配比。

在 Post-Training（后训练）方面，TeleAI 首先针对数学、代码和逻辑推理等内容合成了大量问答数据，用于 SFT（监督式微调）第一阶段模型训练。

其次，其采用迭代式更新策略，使用模型对提示词数据进行指令复杂性提升与多样性扩充，通过模型合成和人工标注提升答案质量，并利用拒绝采样获取优质 SFT 数据及 RM（奖励模型）代表性数据，用于 SFT 训练和 DPO（偏好对齐）训练，以及模型效果迭代。

IT之家附开源地址

GitHub：

https://github.com/Tele-AI/TeleChat2

Gitee：

https://gitee.com/Tele-AI/tele-chat2

ModelScope：

https://modelscope.cn/models/TeleAI/TeleChat2-115B

Modelers：

https://modelers.cn/models/TeleAI/TeleChat2-115B

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

中国电信人工智能大模型

Science 子刊封面：500 年前拉斐尔怎么作画，AI 看一眼就知道

猫眼娱乐发布动态故事板 AI 生成工具“神笔马良”：视听化呈现剧本内容

中国信通院、北邮与清华联合发布开源“有形”具身智能操作系统

大家都在买广告

热门评论

查看更多评论