一夜爆红的 AI 语言处理工具：能一句话总结论文，但仍“难辨是非”

2022-01-20 06:33 智东西 - 赵迪

1 月 20 日消息，据报道，近来，AI 语言处理工具“tl;dr papers”在推特上得到大量学者推荐。“tl;dr papers”运用 AI 语言处理领域（AI language processing）的前沿技术，根据论文摘要总结论文观点，能将难以理解的学术文章提炼为简洁通俗的短句，增强趣味性，不仅便于读者阅读，也为教育科普提供了新手段。同时，它对文章的概括也能启发研究人员从新角度重新审视研究对象。

英语俚语中用缩写“tl;dr”代表“Too Long；Didn’t Read”，意为“文章太长，没有兴趣看”。对于那些有难度、不想看的学术论文，“tl;dr papers”正好可以助你一臂之力，它将长篇幅的文章浓缩至一句话，让你能够快速浏览文章内容。

目前，AI 语言处理工具在微软、谷歌等主流公司被广泛应用，但它们对训练数据的依赖性较高，不能自主辨别不良信息，甚至会帮助传播这些信息。此外，AI 语言处理工具常产生违背基本常识的处理结果，其准确性还有待提高。

一、一句话概括高难度论文，新科普手段出现

“tl;dr papers”是由亚什・达尼（Yash Dani）和辛迪・吴（Cindy Wu）在两年前创建的 AI 语言处理网站，本意是协助自己了解更多软件开发知识。上周末，学者们纷纷在推特上分享“tl;dr papers”对其学术论文的概括总结，热度一夜飙升。“tl;dr papers”主要根据学术论文摘要进行概括，删减了学术术语，用语简洁，虽然忽略了概念之间的细微差别，但整体上总结准确，富有趣味性，得到学者们的广泛肯定。

澳大利亚国立大学全球女性领导力研究所所长米歇尔・瑞恩（Michelle Ryan）教授曾发表一篇关于“glass cliff”的文章，指出在组织面临危机或经济低迷时期，女性比男性更有可能被选中担任领导角色，这本质上是一种性别歧视。“tl;dr papers”将其概括为“很多女性被置于‘glass cliff’之上，这是一个糟糕的地方”，这句总结句式简单、意义明确，小学生也能毫不费力地看懂。

▲ Ryan 教授在推特上发文支持“tl;dr papers”

宾夕法尼亚大学安纳伯格传播学院的博士生赞恩・格里芬・塔利・库珀（Zane Griffin Talley Cooper）也用其概括了一篇有关“数据外围（data peripheries）”的论文，原文内容是追溯大数据基础设施材料的物理学历史。这篇论文最后被总结为“大数据存储在硬盘驱动器上，硬盘驱动器由非常小的磁铁制成，磁铁从地下开采出来。”库珀意识到，表面上看“tl;dr papers”是用于娱乐，但实际上它还可以被应用到教学和研究中，比如帮助学生阅读复杂的论文，为在线期刊生成简化版摘要，方便公众阅读。

二、看看机器如何理解，激发研究人员创造力

莫纳什大学新兴技术研究实验室的高级研究员贾森・萨多夫斯基（Jathan Sadowski）对“tl;dr papers”很感兴趣，将它看作研究人员创造力的催化剂。他认为“tl;dr papers”提供的总结往往具有“偶然的智慧”，这也许是机器学习无法完全理解语言的副产品，但机器提供的这些视角能够帮助在自己的领域挖掘甚深的学者从更新奇的角度看待自己的研究对象。

萨多夫斯基认为，像“tl;dr papers”这样的 AI 语言处理工具可以挖掘自身作为“创造力催化剂”的定位。布莱恩・伊诺（Brian Eno）和彼得・施密特（Peter Schmidt）曾创造一组卡片“Oblique Strategies”，每张卡片上都有一个警句或评论，旨在通过鼓励横向思维来帮助艺术家（尤其是音乐家）打破创作障碍。“tl;dr papers”也可以提供类似的服务，激发学者开拓新的思维模式。事实上，一些公司已经察觉到 AI 在这方面的潜力，推出了 AI 创意写作助手。

▲ Oblique Strategies 网站随机生成的警句

三、囿于数据库和统计方法，AI 语言处理工具难辨是非

目前 AI 语言处理工具以训练数据为基础，而训练数据通常只是从互联网上搜集的大量文本，因此这些 AI 语言处理工具有可能会强调不良信息，比如重复涉及种族主义和性别歧视的污言秽语，还可能以更微妙的方式带有偏见。

AI 语言处理工具的不准确性也令人担忧。这些工具运用统计方法处理语言，对内容的理解方式与人类不同，这可能会导致一些非常基本的错误，甚至可能危及生命。谷歌搜索曾在回答“癫痫发作应对措施”问题时提供了误导性的医疗建议。去年 12 月，亚马逊的语音助手 Alexa 在一个孩子让其随机推荐一个挑战时，引导孩子把手机充电器插到墙上插座的一半，然后用一枚硬币去触碰暴露在外的金属头。

▲ 用户发布了 Alexa 给出的误导性信息截图

这些都说明了 AI 语言处理工具在结构模型上的弱点，即作为模型基础的数据鱼龙混杂，模型采用的方法与人类理解语言的方式也存在差距。萨多夫斯基认为，像这样的 AI 语言处理工具应该小心处理，让它们尽量可以发挥正面作用。

结语：AI 语言处理工具拓展应用范围，但精确性还需加强

AI 语言处理工具“tl;dr papers”对高难度学术论文进行了准确、简洁的概括，使学术内容以更富趣味性的形式呈现在大众面前。这些概括不仅具有娱乐性，还能够促进知识科普，激发研究人员的创造力，助力教学和研究工作，展现了人工智能语言处理工具广阔的应用前景。

AI 语言处理工具长期采用以统计为主的经验主义方法，这种与人类大相径庭的语言理解方式帮助人们在计算机语言处理上取得了极大进步。未来，这种方法能否进一步消除人们对其错误倾向性、准确性的担忧，值得期待。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。