.hd-box .hd-fr

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

2024-09-11 11:53IT之家(故渊)2评

IT之家 9 月 11 日消息，科技媒体 The Decoder 昨日（9 月 10 日）报道，对比平台 Artificial Analysis 相关数据表明，Reflection 70B AI 模型在基准测试中的表现，实际上不及 Meta 的 LLaMA-3.1-70B。

针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特・舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇到问题，所使用的权重是多个不同模型的混合体，而他们内部托管的模型则显示出更佳的结果。

舒默随后向部分用户提供了独家访问内部模型的权限，Artificial Analysis 重做了测试，并报告结果优于公开 API，只是他们无法确认所访问的具体是哪个模型。

Reflection在 Hugging Face 已上传了新的模型，不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。

IT之家查询公开资料，有用户还发现了证据，表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。

舒默对这一即将发布的版本做出了大胆声明，称其不仅将成为最佳的开源模型，还将是有史以来最优秀的语言模型。

官方回应：

相关阅读：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

苹果 Apple Watch Series 10 智能手表新功能：AI 降低风噪，提高通话清晰度

Rambus 发布业界首款 HBM4 控制器 IP，最高数据传输速率 10 Gbps

研究发现，生成式 AI 可提升软件开发的学习效果

大家都在买广告

热门评论