可识别 AI 生成的科学文本的新型检测工具问世,号称准确率超 99% 但遭质疑
IT之家 6 月 8 日消息,今年早些时候美国田纳西州健康科学中心的放射学家 Som Biswas 引起关注,因为他在《放射学》杂志上发表了一篇由人工智能聊天机器人 ChatGPT 协助写作的文章,题为《ChatGPT 与医学写作的未来》。他表示,他使用并编辑了 ChatGPT 生成的文本,目的是提高人们对该技术的实用性的认识。他还透露,之后他又在四个月内利用 ChatGPT 发表了 16 篇期刊文章。有些期刊编辑也反映,他们收到了大量使用 ChatGPT 写作的文章。
为了应对这种情况,堪萨斯大学的化学教授 Heather Desaire 和她的团队开发了一种新的 AI 检测工具,可以高效准确地区分科学文本是由人类还是 ChatGPT 生成的,他们的研究结果发表在《细胞报告物理科学》杂志上。
Desaire 教授说,她和她的团队首先分析了 64 篇《科学》杂志上的“观点”文章,这些文章是对当前研究进行评论和评价的综述性文章。然后,他们又分析了 128 篇由 ChatGPT 生成的关于同样研究主题的文章。通过比较两者,他们找出了 20 个特征,可以帮助判断科学文本的作者身份。
他们发现,人类科学家和 ChatGPT 在段落复杂度、句子长度、标点符号和词汇使用等方面有明显不同。例如,人类科学家更倾向于使用括号、破折号、问号、分号和大写字母,而 ChatGPT 则不常用。人类科学家也更喜欢使用“模棱两可的语言”,如“然而”、“尽管”、“但是”等。此外,人类科学家写作时既有很短的句子,也有很长的句子,而 ChatGPT 则比较平均。
基于这 20 个特征,他们使用了一种现成的机器学习算法 XGBoost 来训练他们的 AI 检测工具,他们测试了他们的 AI 检测工具在 180 篇文章上的表现,发现其非常擅长判断一篇科学文章是由人类还是 ChatGPT 写作的。“这种方法有超过 99% 的准确率”,Desaire 教授说,并补充说这比现有的工具要好得多,因为现有的工具是在更广泛的文本类型上进行训练的,而不是专门针对科学文本的。
Desaire 教授说,这种 AI 检测工具可以帮助期刊编辑处理大量使用 ChatGPT 写作的文章,可以让他们优先考虑哪些文章值得送审。她还说,这种工具可以根据不同的领域进行调整,比如用来检测学生的剽窃行为,只要在适合的语言上进行训练就行。“你可以把它改造用于你想要的任何领域,只要想好哪些特征是有用的。”
然而IT之家注意到,并非所有人都认为这种 AI 检测工具有多大用处。南澳大利亚大学变化与复杂性学习中心(C3L)的 Vitomir Kovanović博士说,Desaire 教授和她的团队所做的比较是不现实的,因为他们只比较了 100% 由 AI 生成和 100% 由人类生成的文本,而没有考虑到人类和 AI 之间的协作。他说,当科学家使用 ChatGPT 时,往往会有一定程度的人机合作,比如科学家会编辑 AI 生成的文本。这也是必要的,因为 ChatGPT 有时会出错,甚至会生成虚构的参考文献。但是由于研究者只比较了两种极端情况,他们的成功率就被提高了。
阿德莱德大学机器学习研究所的 Lingqiao Liu 博士也认为,在真实世界中,这种 AI 检测工具的准确率可能会降低,导致更多的错误分类。Liu 博士是一位开发算法来检测 AI 生成图像的专家,他说:“从方法论上讲,这没问题,但使用它有一定风险。”
另一方面,Liu 博士指出,人们也有可能指示 ChatGPT 以特定的方式写作,从而让 100% 由 AI 写作的文本通过检测。事实上,一些评论员甚至谈到了一个“军备竞赛”,指的是那些试图让机器更像人类和那些试图揭露那些出于恶意目的使用这项技术的人之间的竞争。
Kovanović博士认为这是“没有意义的竞赛”,因为这项技术有着强大的发展势头和潜在的积极影响。他说,AI 检测“没有抓住重点,我认为我们最好把精力投入到如何有效地使用 AI 上。”他还反对使用反剽窃软件来评估大学生是否使用了 AI 写作,并称这给学生造成了不必要的压力。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。