《自然》：解放编辑双手，AI 审查图像造假、学术不端

2021-12-24 07:01智东西 - 程茜

本周二，国际权威期刊《自然》刊登了一项 AI（人工智能）新成果，是一款用于论文审核的 AI 图像检测软件，它能帮助编辑人员审核生物学等论文中的造假图象、错放误放图片等。

在科技论文中，实验结果的准确性往往需要实验数据来证明。一些研究人员为了快速完成论文或验证自己的实验结果，可能会利用电脑生成虚假图片、捏造数据，或者使用旧数据来重复配图。如何更快更准确地发现论文中被修改和复制的图像一直是学术期刊编辑们的头等大事。

此前，在美国癌症研究协会（AACR）出版的十种期刊中，论文在发表之前都要经过一次不寻常的额外检查 —— 审查文章中出现的图像。

自 2021 年 1 月起，AACR 开始使用人工智能软件来重新审查其他同行评审后的手稿，除重复图片外，该软件还可以发现那些已被旋转、拉伸或利用电脑生成、修改的虚假图像。

▲ Proofig 中对病毒粒子图片进行数字彩色透射电子显微镜（TEM）操作的示例，蓝线表示人工智能用以比较的数百个相同特征

一、成本低、效果好，仍需人工把关

人工智能审查软件将是未来的发展趋势，AACR 就是这项技术的早期采用者。无论是因为故意还是无意，为了避免在论文中发表被篡改过的图像，许多期刊聘请了人员手动扫描手稿中是否存在问题，然后使用审查软件来帮助检查他们发现的内容。

但《自然》杂志了解到，在过去的一年里，多家出版商开始自动化审查过程，依靠人工智能软件在稿件发表之前发现经复制和修改的图像。

▲ 论文中的流式细胞图，存在完全一致的细胞最终落点。（图片来源为中国青年网）

宾夕法尼亚州费城协会期刊运营主管丹尼尔・埃万科（Daniel Evanko）称，AACR 尝试了多种软件产品，然后才最终选择了以色列雷霍沃特（Rehovot）公司的人工智能检测软件 Proofig 的服务。“我们对此非常满意。”他补充道，他希望人工智能能够帮助研究人员审查，以减少发表后出现的问题。

值得注意的是，当人工智能软件标记图像时，仍然需要专业的编辑来决定要做什么。例如，如果同一个数据集在文中出现两次，但表示了不同的意义，那么重复的图像都需要保留。其次，由于手稿组装过程中的简单复制和粘贴错误，也会出现图像重复问题，但这是无意识发生的，并不是故意欺诈读者。在这之前，这些问题都只能通过编辑和作者之间的讨论来解决。

另外，现在人工智能变得足够有效且成本低廉，专家表示，自动图像检查助手可能会在未来几年席卷科学出版行业，就像使用软件检查抄袭在十年内成为常规一样。出版业团体还表示，他们正在探索比较不同期刊手稿中图像的方法。

其他检测图像完整性专家也认可这一发展趋势，不过他们认为，目前尚未对各种软件产品进行公开比较，并且自动检查可能会产生过多误报或遗漏某些图片的问题。

从长远来看，对软件筛选的依赖也可能会促使欺诈者使用人工智能来欺骗软件，就像一些人通过调整文本来逃避抄袭筛选一样。德国海德堡 EMBO Reports 期刊的主编伯纳德・普尔韦尔（Bernd Pulverer）说：“我担心我们正在与基于人工智能的技术进行军备竞赛，这可能导致深度伪造图像出现。”

二、不光用于重复检测，还能改善图片质量

研究人员多年来一直在开发用于图像检查的人工智能软件，因为他们担心论文中的学术不端行为可能对科学文献造成破坏，而这将远远超过文章中出现问题后，撤回文章或更正声明所造成的破坏程度。

此前，荷兰微生物学家伊丽莎白・比克（Elisabeth Bik）独立或合作发表了大约 20000 篇生物医学论文，2016 年研究人员对这些论文中的图片进行人工分析后，结果显示有超 4% 的论文可能包含有问题的图片。然而，通常每年只有大约 1% 的论文得到更正，被撤回的则更少。

▲ 荷兰微生物学家伊丽莎白・比克（Elisabeth Bik）

“我知道全球大约有 20 家公司在开发图像检查软件。”加州生物医学研究图像处理咨询公司 Image Data Integrity 总裁迈克・罗斯纳（Mike Rossner）说。

去年，全球部分科学出版商联合成立了一个工作组，为筛选图片问题的软件制定标准；该小组今年发布了关于编辑应该如何处理篡改图像的指导方针，但尚未制定软件的指导方针。

一些学术团体和公司告诉《自然》杂志，期刊和政府机构正在试用他们的人工智能软件，但 Proofig 是第一个公开客户信息的公司。除了 AACR，美国临床调查学会在 7 月份开始使用 Proofig 的软件在《临床调查》杂志（JCI）上审查手稿，美国临床调查学会期刊的执行编辑莎拉・杰克逊（Sarah Jackson）说。伦敦独立学术出版公司 SAGE 的转型负责人海伦・金（Helen King）称，今年 10 月 SAGE Publishing 杂志在其五份生命科学期刊中采用了该软件。

Proofig 的软件从论文中提取图像，并将它们成对地进行比较，以找出共同特征。一般而言，论文的检查时间大概在一两分钟内，Proofig 的创始人德罗・科洛德金・加尔（Dror Kolodkin-Gal）说，该软件还可以纠正棘手的问题，例如将高分辨率原始数据压缩成较小文件时可能出现的压缩伪影。“计算机比人类视觉更有优势。”他说，“计算机不仅不会感到疲倦，运行速度也会更快，而且它也不会受到大小、位置、方向、重叠、部分复制和这些因素组合的影响。”

关于图片检查的成本，加尔拒绝详细讨论定价问题，但他表示与出版商签订的合同往往根据论文中的图像数量收费，同时也取决于手稿的数量。他说，这相当于每张纸的收费“接近几十美元而不是几百美元”。

杰克逊说，在《临床调查》杂志中，该软件发现的问题比以前工作人员手动审查的问题要多。虽然工作人员仍然需要检查 Proofig 的输出结果，但重要的是该期刊已经拥有处理各种图像问题的人工智能系统。“我们真的觉得严谨的数据是我们期刊的绝对标志。我们认为这值得花时间和金钱。”杰克逊说。同时，在美国癌症研究协会的期刊中，埃万科说许多作者很高兴在发表之前就发现了他们的图片重复错误。

三、AI + 人工，多个出版商自研软件

与此同时，位于瑞士洛桑的出版商 Frontiers 开发了自己的图像检查软件 AIRA（人工智能审查助手），作为自动检查系统的一部分。一位发言人说，自 2020 年 8 月以来，一个研究图像完整性的团队一直在内部使用 AIRA，用来对所有提交的手稿进行图像检查。但该软件标记的大多数论文实际上没有出现问题，仅有大约 10% 需要编辑团队跟进。Frontiers 拒绝透露 AIRA 标记的论文数量。

包括比克和罗斯纳在内的图像完整性专家表示，他们自己还没有尝试过 AIRA 或 Proofig，很难评估尚未使用标准化测试进行公开比较的软件产品。罗斯纳补充说，除了重复之外，检测是否通过 PS 删除或裁剪部分图像也很重要。“人工智能软件可能是视觉筛选的有用补充，但它可能无法替代当前形式。”

“不过，我相信这最终将成为稿件筛选的标准。”比克补充道。

尚未采用人工智能软件图像筛选的出版商提到了成本和可靠性问题。美国科学公共图书馆 PLOS 的一位发言人谈道，他正在“热切地”监控这项研究的进展情况，这些工具可以“可靠地识别常见的图像完整性问题并且可以大规模应用”。荷兰出版集团爱思唯尔（Elsevier）称，它们“仍在测试”软件，但它的一些期刊会在发表前筛选所有论文，并“使用软件工具和手动分析的组合”检查图像。

一位发言人说，2020 年 4 月，学术出版商 Wiley 为临时接受的手稿推出了图像筛选服务，目前有 120 多家期刊使用，但目前这是由软件辅助的手动筛选。《自然》杂志的出版商 Springer Nature 称，它正在评估一些外部工具，同时整理数据以训练自己的软件，该软件将“结合互补的人工智能和人工来识别有问题的图像”。

四、蛋白质印迹都能伪造，推进跨出版商检测

普尔韦尔说：“EMBO Press 杂志仍然主要使用手动筛选，我不太相信商业产品的成本效益比。”而且普尔韦尔是定义软件标准的跨出版商工作组的成员，“我毫不怀疑，我们很快就会拥有高级工具。”

普尔韦尔担心欺诈者可能会了解该软件的工作原理，并使用人工智能软件生成人们和软件都无法检测到的虚假图像。尽管还没有人表明此类图像已经出现在研究论文中，但去年发布在提供分发服务的网站 BioRxiv 上的一份预印本表明，论文中有可能出现与真实数据无法区分的生物图像的伪造版本，例如蛋白质印迹。

▲ 《细胞生物化学》杂志中论文内蛋白质印迹图片（图片来源为中国青年网）

但研究人员正在解决这个问题，印第安纳州西拉斐特普渡大学的计算机科学家爱德华・德尔普（Edward Delp）在美国国防高级研究计划局资助的一个项目中领导了一个团队，该团队正在研究检测人工智能伪造图像的软件，并专注于伪造的生物图像，例如显微镜图像和 X 射线，一篇描述该系统的论文正在审查中。

▲ 光学显微镜捕捉细胞和组织的显微照片

目前，人工智能图像检查通常在手稿中完成，而不是在论文中完成，这将使其计算量越来越大。但商业和学术软件开发商表示，这在技术上是可行的。纽约雪城大学的计算机科学家丹尼尔・阿库尼亚（Daniel Acuña）去年在数千份新冠疫情相关的预印本上成功运行了人工智能检测软件，以查找重复项。

Crossref 是一家由 15000 多个组织组成的美国非营利性合作组织，该组织负责组织跨论文的抄袭检查等。Crossref 的伦敦产品总监布莱恩・维克里（Bryan Vickery）称，他们目前正在开展一项调查，询问其成员对篡改图像的担忧、他们使用的软件以及可以共享图像的“跨出版商服务”是否可行。

今年 12 月，英国牛津学术出版商行业组织 STM 的子公司 STM Solutions，宣布它正在开发一个云平台，以帮助出版商合作“检查提交的文章是否存在研究诚信问题”，同时保持隐私和保密。STM 发言人马特・麦凯（Matt McKay）表示，检测跨期刊的图像篡改、重复和抄袭“在我们的路线图中占据重要位置”。

结论：图像检测要集成人工智能软件、云数据平台

论文中的学术不端将会对期刊、作者等都造成较大的影响。此前，学术期刊都依靠编辑人工筛选，来发现论文中的图像错误问题，但由于人工审查的局限性，总会出现“漏网之鱼”。因此，随着人工智能技术的不断发展和完善，人工智能检测技术将成为论文图像检测的主要手段。

但由于人工智能技术无法依据情境对图像进行判断，最终还是需要人工编辑审核，但这仍大大降低了编辑的工作量。杰克逊说，在临床调查杂志中，人工智能软件发现的问题比以前工作人员手动审查的问题要多。

此外，在图像检测领域建立人工智能软件审查的云数据平台也至关重要，实现跨出版商检测，能够有效避免因地区、学科不同而出现的学术不端行为。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。