研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

2024-09-05 07:47IT之家 - 清源

感谢IT之家网友咩咩洋的线索投递！

IT之家 9 月 5 日消息，当地时间 9 月 4 日，据《福布斯》报道，牛津大学的伊利亚・舒梅洛夫博士和他的团队发现，当生成式 AI 软件仅依赖于由 AI 生成的内容时，回答的质量开始恶化。这项研究已经发表在《自然》杂志上。

在最初的两次查询后，答案逐渐偏离准确性，到第五次时，质量显著下降，到了第九次连续查询时，回答已完全退化为无意义的胡言乱语。研究人员将这种生成式 AI 内容的循环过度使用称为“模型崩溃”，即 AI 在不断污染自己的训练集后，输出的内容逐渐偏离现实，最终变得毫无价值。

舒梅洛夫表示：“令人惊讶的是，模型崩溃发生得如此迅速且难以察觉。最初，它会影响到少数数据 —— 那些代表性不足的数据。接着，它会影响输出的多样性，导致差异性减少。有时，你会观察到对多数数据的微小改进，但这种改进掩盖了少数数据表现的恶化。模型崩溃可能带来严重后果。”

研究人员通过一种方法确定了“模型崩溃”现象的存在：使用一个预训练的 AI 驱动的维基百科，然后让 AI 模型基于自己生成的内容进行更新。受污染数据的影响逐渐导致原本的训练集被侵蚀，输出的信息也随之变得难以理解。例如，在第九次查询循环后，研究中的维基百科条目从关于 14 世纪英国教堂尖顶的内容滑稽地变成了一篇关于各种颜色的短尾兔子的论文。

报道称，根据亚马逊网络服务（Amazon Web Services）团队在 6 月发布的另一项研究，大约 57% 的网络文本都经过了 AI 算法的翻译。如果互联网上的人类生成数据迅速被 AI 过滤内容覆盖，且舒梅洛夫的研究发现属实，那么 AI 可能正在“自我毁灭”—— 并同时“毁灭”互联网。

研究得出结论，要实现 AI 的长期可持续发展，唯一方法是确保其能够访问现有的非 AI 生成内容，并持续引入新的人工生成内容。

IT之家附研究链接：

AI models collapse when trained on recursively generated data

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。