3 分钟看完一篇论文，AI 文本生成模型把今年 NeurIPS 2300+ 篇总结了个遍

2021-11-26 13:08量子位(行早)14评

今年 NeurIPS 大会论文已经放榜，终于可以学习一下大佬们的研究了。

不过，打开电脑，随便点开一篇，就是一大段密密麻麻的文字糊脸…… 只是摘要就有这么长，还有 2300 多篇，这工作量实在劝退。

能不能让论文们都做一道经典的语文题：“用一句话概括全文内容”？还真可以。

最近 Reddit 上的一位博主发布了一篇今年的 NeurIPS 大会论文汇总，其中的每篇论文下方（红框中）都有一句由 AI 生成的高度凝练的总结。

而这款 AI 文本分析软件，其实就是东京工业大学团队开发的Paper Digest。

它号称能帮你把论文阅读时间减少到 3 分钟。

除了总结论文内容以外，它还可以筛选出已经发布代码的论文。

同样，这次 NeurIPS 大会上的 200 多篇已发布代码的文章也被汇总了出来（可能会有疏漏）。

点击“code”，就可以直接跳转到相应的 GitHub 页面。

AI 如何做好概括题

那这个 AI 文本分析神器应该怎么用呢？

很简单，先打开 Paper Digest 的官网。完成一些注册工作后，滑到一个搜索框的界面：

在这个搜索框里填上你要总结概括的论文的 DOI 号。

DOI 号就像论文的身份证号，是独一无二的。以随便打开的一篇论文为例，它长这样（红框中即为 DOI 号）：

填完之后，点击“Digest”就开始总结了：

只需几秒钟，就会有一句话的总结输出，你也可以选择一个最合适反馈给 Paper Digest，帮他们丰富数据库。

除了输入 DOI 号，如果你有本地的论文 PDF 文件，也可以直接导入。

是不是很方便？其实这样方便好用的模型还不止一种。

比如，在一款免费学术搜索引擎 Semantic Scholar 里，也加入了一个类似的高度概括 AI：TLDR。

TLDR（Too Long，Don’t Read），其实就是太长不看的意思……

在 Semantic Scholar 上搜索论文时，带有 TLDR（红框）标志的就是 AI 生成的一句话总结。

具体到方法原理上，我们不妨以 TLDR 为例一起来看看。

举个例子，下图中上边的格子中是摘要，简介，结论中相对重要的段落和句子。TLDR 会标记出突出的部分，然后组合成一个新的句子。

它的训练逻辑也很容易理解。简单来说，就是先确定一个标准答案，然后把标准答案打乱，再让 TLDR 尝试复原。

这和人类提炼概括的过程也很像。概括本身也需要忽视一些干扰，然后提取出最重要的部分。

所以在训练之前要准备两个数据库，也就是标准答案：一个是 SciTLDR，它包含接近 2000 篇计算机科学相关论文，每篇论文都有一个最好的总结。

另一个是论文-标题对数据库。由于标题中一般有很多重要的语句，对生成 TLDR 来说很有帮助。

将这两个数据库分别加上控制码“<TITLE>”和“<TLDR>”之后进行混合，送入 BART 模型。

最后的 BART 模型是一个基于 Transformer 的预训练 sequence-to-sequence 去噪自编码器，它的训练步骤主要有两步：

首先用任意噪声破坏函数文本，相当于把标准答案打乱。然后让模型学习重建原来的文本。这整个学习策略就是 CATTS。

来看看效果如何。

下图中 TLDR-Auth 是论文作者本人写的总结，TLDR-PR 是本科学生读完论文写的总结。

BART 和 CATTS 分别是原有模型和 CATTS 模型给出的总结。

从重合度看起来效果还是不错的。