AI，正在疯狂污染网络社区环境

量子位
2023-06-19 12:49

原文标题：《AI，正在疯狂污染中文互联网》

污染中文互联网，AI 成了“罪魁祸首”之一。

事情是这样的。

最近大家不是都热衷于向 AI 咨询嘛，有位网友就问了 Bing 这么一个问题：

象鼻山是否有缆车？

Bing 也是有问必答，给出了看似挺靠谱的答案：

在给出肯定的答复之后，Bing 还贴心地附带上了票价、营业时间等细节信息。

不过这位网友并没有直接采纳答案，而是顺藤摸瓜点开了下方的“参考链接”。

此时网友察觉到了一丝丝的不对劲 —— 这人的回答怎么“机里机气”的。

于是他点开了这位叫“百变人生”的用户主页，猛然发觉，介是个 AI 啊！

因为这位用户回答问题速度可以说是极快，差不多每 1、2 分钟就能搞定一个问题。

甚至能在 1 分钟之内回答 2 个问题。

在这位网友更为细心的观察之下，发现这些回答的内容都是没经过核实的那种……

并且他认为，这就是导致 Bing 输出错误答案的原因：

这个 AI 疯狂地污染中文互联网。

“AI 污染源”，不止这一个

那么被网友发现的这位 AI 用户，现在怎么样了？

从目前结果来看，他已经被被知乎“判处”为禁言状态。

但尽管如此，也有其他网友直言不讳地表示：

不止一个。

若是点开知乎的“等你回答”这个栏目，随机找一个问题，往下拉一拉，确实是能碰到不少“机言机语”的回答。

例如我们在“AI 在生活中的应用场景有哪些？”的回答中便找到了一个：

不仅是回答的语言“机言机语”，甚至回答直接打上了“包含 AI 辅助创作”的标签。

然后如果我们把问题丢给 ChatGPT，那么得到回答…… 嗯，挺换汤不换药的。

事实上，诸如此类的“AI 污染源”不止是在这一个平台上有。

就连简单的科普配图这事上，AI 也是屡屡犯错。

网友们看完这事也是蚌埠住了：“好家伙，没有一个配图是河蚌”。

甚至各类 AI 生成的假新闻也是屡见不鲜。

例如前一段时间，便有一则耸人听闻的消息在网上疯传，标题是《郑州鸡排店惊现血案，男子用砖头砸死女子！》。

但事实上，这则新闻是江西男子陈某为吸粉引流，利用 ChatGPT 生成的。

无独有偶，广东深圳的洪某弟也是通过 AI 技术，发布过《今晨，甘肃一火车撞上修路工人，致 9 人死亡》假新闻。

具体而言，他在全网搜索近几年的社会热点新闻，并使用 AI 软件对新闻时间、地点等进行修改编辑后，在某些平台赚取关注和流量进行非法牟利。

警方均已对他们采取了刑事强制措施。

但其实这种“AI 污染源”的现象不仅仅是在国内存在，在国外亦是如此。

程序员问答社区 Stack Overflow 便是一个例子。

早在去年年底 ChatGPT 刚火起来的时候，Stack Overflow 便突然宣布“临时禁用”。

当时官方给出来的理由是这样的：

（这样做）的目的是减缓使用 ChatGPT 创建的大量答案流入社区。
因为从 ChatGPT 得到错误答案的概率太高了！

Stack Overflow 进一步阐述了这种现象。

他们认为以前用户回答的问题，都是会有专业知识背景的其他用户浏览，并给出正确与否，相当于是核实过。

但自打 ChatGPT 出现之后，涌现了大量让人觉得“很对”的答案；而有专业知识背景的用户数量是有限，没法把这些生成的答案都看个遍。

加之 ChatGPT 回答这些个专业性问题，它的错误率是实实在在摆在那里的；因此 Stack Overflow 才选择了禁用。

一言蔽之，AI 污染了社区环境。

而且像在美版贴吧 Reddit 上，也是充斥着较多的 ChatGPT 板块、话题：

许多用户在这种栏目之下会提出各式各样的问题，ChatGPT bot 也是有问必答。

不过，还是老问题，答案的准确性如何，就不得而知了。

但这种现象背后，其实还隐藏着更大的隐患。

滥用 AI，也毁了 AI

AI 模型获得大量互联网数据，却无法很好地辨别信息的真实性和可信度。

结果就是，我们不得不面对一大堆快速生成的低质量内容，让人眼花缭乱，头晕目眩。

很难想象 ChatGPT 这些大模型如果用这种数据训练，结果会是啥样……

而如此滥用 AI，反过来也是一种自噬。

最近，英国和加拿大的研究人员在 arXiv 上发表了一篇题目为《The Curse of Recursion: Training on Generated Data Makes Models Forget》的论文。

探讨了现在 AI 生成内容污染互联网的现状，然后公布了一项令人担忧的发现，使用模型生成的内容训练其他模型，会导致结果模型出现不可逆的缺陷。

这种 AI 生成数据的“污染”会导致模型对现实的认知产生扭曲，未来通过抓取互联网数据来训练模型会变得更加困难。

论文作者，剑桥大学和爱丁堡大学安全工程教授 Ross Anderson 毫不避讳的直言：

正如我们用塑料垃圾布满了海洋，用二氧化碳填满了大气层，我们即将用废话填满互联网。

对于虚假信息满天飞的情况，Google Brain 的高级研究科学家达芙妮・伊波利托 (Daphne Ippolito) 表示：想在未来找到高质量且未被 AI 训练的数据，将难上加难。

假如满屏都是这种无营养的劣质信息，如此循环往复，那以后 AI 就没有数据训练，输出的结果还有啥意义呢。

基于这种状况，大胆设想一下。一个成长于垃圾、虚假数据环境中的 AI，在进化成人前，可能就先被拟合成一个“智障机器人”、一个心理扭曲的心理智障。

就像 1996 年的科幻喜剧电影《丈夫一箩筐》，影片讲述了一个普通人克隆自己，然后又克隆克隆人，每一次克隆都导致克隆人的智力水平呈指数下降，愚蠢程度增加。

那个时候，我们可能将不得不面临一个荒谬困境：人类创造了具有惊人能力的 AI，而它却塞满了无聊愚蠢的信息。

如果 AI 被喂进的只是虚假的垃圾数据，我们又能期待它们创造出什么样的内容呢？

假如时间到那个时候，我们大概都会怀念过去，向那些真正的人类智慧致敬吧。

话虽如此，但也不全坏消息。比如部分内容平台已开始关注 AI 生成低劣内容的问题，并推出相关规定加以限制。

一些个 AI 公司也开始搞能鉴别 AI 生成内容的技术，以减少 AI 虚假、垃圾信息的爆炸。

参考链接：

[1]https://www.v2ex.com/t/948487
[2]https://twitter.com/oran_ge/status/1669160826186633219
[3]https://www.qbitai.com/2022/12/40167.html
[4]https://arxiv.org/abs/2305.17493v2
[5]https://albertoromgar.medium.com/generative-ai-could-pollute-the-internet-to-death-fb84befac250
[6]https://futurism.com/ai-generates-fake-news

本文来自微信公众号：量子位（ID：QbitAI），作者：金磊尚恩

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。