韩国 AI 团队抄袭震动学界！1 个导师带 51 个学生，还是抄袭惯犯

量子位
2022-06-28 14:56

感谢IT之家网友我们的大哥哥的线索投递！

今年 CVPR，着实有点魔幻了！

先是韩国首尔大学 AI 团队的 Oral，即前 4% 的优秀论文，被曝出涉嫌抄袭 10 篇论文。有的地方，连一个单词都没有变。事发当日即登上韩国头条，国内外网友震惊：搞到 CVPR 上也太行了吧。

更多人爆料，这个团队抄袭已经不止一次，基本操作了属于是。

结果这一波还未结束，另一波又开始了。IBM 发表在 CVPR 上的论文 TableFormer 被指抄袭国内 2021 年发表的一篇文章。

爆料指出，IBM 论文剽窃了他们的方法，包括预处理、可视化、推理、系统解决方案等，但并没有引用他们的论文。

……

抄袭事件频出，于是乎不少网友感叹：这届 CVPR 太魔幻了。

甚至还有人直接在知乎上列出了这么一个问题：

大家一起来揭发吧。CVPR 2022 都有哪些论文是抄袭的？

韩国团队被曝不止一次抄袭

先来看引发众人关注的韩国团队抄袭事件。

在通讯作者尹盛老和一作金某的最新公开回应中，都表示这次抄袭属于一作的个人行为，和团队其他人无关。

尹盛老解释说：

团队其他合著者把各自的部分发给了一作，但是他最后却没有使用，而是抄袭了别的论文。

他还补充道，现在一作本人其他两篇正在审阅的论文也都被撤回了。

不过，网友们顺藤摸瓜后发现，该团队似乎不止这一篇论文存在抄袭嫌疑。

比如这篇：《Towards Fast and Accurate Object Detection in Bio-Inspired Spiking Neural Networks Through Bayesian Optimization》。

检测软件显示，它有 40% 的抄袭嫌疑，文中有 27 处表达与之前研究高度相似。

还有另外一篇《Energy-aware Placement for SRAM-NVM Hybrid FPGAs》，也被发现存在类似问题。通讯作者都是尹盛老。

与此同时，还有人指出尹教授的实验室规模很大。博士生就有 37 位，加上硕士和博士后，实验室共有 51 位学生由尹盛老指导。

这也让有人担忧，一位教授是否能同时指导好这么多学生，他们的实验和论文质量是否会受到影响。

而从事件爆发的起点 —— 油管曝光视频的内容来看，这次涉嫌抄袭的论文中，很多地方都是原封不动地搬运此前研究的表述。涉及到的部分有 Introduction、Preliminaries、Method 等。

甚至有的地方是一字不落的 copy。

全文出现的抄袭段落多达 25 处，曝光视频展示问题就花了 7 分多钟。被抄袭的论文很多被 NeureIPS、AAAI 等顶会接收，其中还有几位一作是韩国人。

这也难怪上传曝光视频的人，会给视频起一个如此“刺眼”的标题：

E2V-SDE or: How I Learned to Stop Worrying and Love Plagiarism。
E2V-SDE 又名：我是如何毫不担忧并爱上抄袭的。

这里的 E2V-SDE，就来自尹盛老团队此次被 CVPR 2022 接收的论文标题。

现在，随着事件的不断发酵，尹盛老团队还引发了韩国网友的群愤。

要知道，尹盛老是韩国人工智能领域的权威专家，来自首尔大学人工智能研究所。今年 6 月，他才刚刚被韩国科学技术部评选为“首席研究员”，每年享有大约 8 亿韩元（折合人民币约 416 万）的科研经费。

但如今，他的团队却深陷抄袭丑闻。

有人留言表示，希望相关单位能够严肃处理这件事情，让相关研究人员退出学术界。

过去 30 年里，很多人不分昼夜地努力研究，才让韩国能在 CV 顶会里发表更多论文，而他们的行为却如此过分！

实际上，韩国在 CVPR 2022 中的成绩确实值得关注，仅首尔大学就有 25 篇论文入选。有人直接说，这件事太给韩国丢脸了。

而更为深层的原因还包括，韩国有声音担心，这次事件会是“黄禹锡事件”的二度上演。

2005 年，曾任首尔大学兽医学院首席教授、一度被视为韩国民族英雄的黄禹锡，被揭发伪造多项研究成果。其在《Science》上发表的干细胞研究均属子虚乌有。2009 年，黄禹锡被判处 2 年徒刑，缓刑 3 年。

IBM 被指抄袭

就在韩国抄袭事件这边还在发酵，IBM 也被曝出其入选的 CVPR 论文涉嫌抄袭。

来自平安科技的研究员，列出了九大证据，涉及方法论、预处理、后期处理、推理、文字行检测与识别等内容，目前已写成邮件发给了 CVPR 2022 program chairs。

首先从核心方法论来看，两者都是表格内容识别任务，取名也类似，一个是 TableMASTER，一个是 TableFormer。

其中，两者的图像输入均为 448*448。前者（TableMASTER）训练长度为 500，而后者（TableFormer）则改成了 512。

爆料者表示，里面很多痕迹都可以看出，IBM 是在他们开源的预训练模型上跑的，只是改了些细节。而最隐晦的也是直呼“最无耻”的，还要属文本单行检测这块，爆料者称：他们只改变了颜色。

一般而言，官方提供的数据中每个表格都是多行的，不利于之后的训练。

于是，研究团队对 3000 张图像进行了重标注，将连在一起的多行拆分成单行。

而 IBM 的 PDF Cells 则是直接拿他们在 GitHub 上训练好的模型进行预测。

除此之外，根据爆料者描述，IBM 还将他们的 3 条规则根据开源的代码，强行拆成 9 条规则。

目前，IBM 方也还没有任何回应。网友也持有各种意见。有人认为，这看起来像个人意见，作者有点情绪化。

还有网友则看完整个证据，很难相信 IBM 是原创文章，建议直接向 CVPR 项目委员会投诉。

One More Thing

最后，再来简单回顾一下今年有点魔幻的 CVPR。

CVPR 2022 投稿量高达 8161 篇，相比于去年 7093 分提交增长了 15%，其中 44.59% 的作者来自中国。

其中，共有 2064 篇论文被接收，接收率为 25.28%。在被接收的论文中，有 342 份被选为 Oral。

最佳论文颁向了 ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学等机构的研究者。而最佳学生论文奖，则是颁给了达摩院的实习生。李飞飞教授获得了本次大会的 Thomas S. Huang 纪念奖。

除此之外不得不承认，今年 CVPR 确实热闹，毕竟有近 6000 人来到线下参会。于是乎，另一个魔幻的事情发生了 —— 不少人因此染上新冠。

网友还提问：到底是 CVPR 接收率高还是感染新冠率高？

参考文献：

[1]https://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/

[2]https://twitter.com/e2v_sde_parody/status/1540087877308239874

[3]https://arxiv.org/pdf/2105.01848.pdf

[4]https://arxiv.org/pdf/2203.01017.pdf

[5]https://www.youtube.com/watch?v=UCmkpLduptU&amp;t=95s

[6]https://www.fmkorea.com/4760102853

[7]https://www.zhihu.com/question/539432448/answer/2543861341

[8]https://www.hankyung.com/society/article/2022062674031

[9]https://www.reddit.com/r/MachineLearning/comments/vjkssf/d_how_to_copy_text_from_more_than_10_previously/

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。