AI 破译 2000 年前「上古卷轴」登 Nature 头版！21 岁计算机天才，谷歌华人工程师共获大奖

新智元
2024-02-06 23:31

【新智元导读】2000 年前碳化的古卷轴，成功被 AI 破译了近 5% 的内容。三人天才团队拿下 70 万美元大奖，谷歌华人工程师一人拿下并列亚军。

2000 年前碳化的古卷轴，如今成功被 AI 破译！背后三人团队还拿下 70 万美元大奖！

AI 在考古领域的重大进步，甚至登上了今天 Nature 的头版。

要说这件事的起源，还得追溯到公元 79 年一次火山爆发，直接将一座珍藏古老的纸莎草卷轴 ——Herculaneum Papyri 的图书馆埋葬。

而这些卷轴，直到 18 世纪才被挖出，却早已成为炭焦的木块。由于太过脆弱，根本无法轻易展开。

今天，正式获奖的作品，展示了超过 15 栏的数百个单词，相当于整个卷轴的 5% 的内容。

值得一提的是，三人拔得头筹的团队中，有一位年仅 21 岁计算机天才少年 Luke Farritor，成功用 AI 从图像裂缝中破译内容。

当时，他还在 SpaceX 暑期实习，偶然发现这场挑战赛的英雄贴。

另外，这场 AI 破译卷轴的大赛还有 3 个团队获得亚军，包括一位谷歌华人工程师单独获 5 万美元大奖。

从破译文字转录后可以读出，古代哲学家对「如何享受生活」「快乐」的探讨与争辩，还揭示了人们对音乐和冒险的沉思。

这一壮举为 AI 完整破译其余古卷铺平了道路，研究人员表示，这可能会对我们对古代世界的理解产生革命性的影响。

谷歌 DeepMind 的首席执行官：我迫不及待地想阅读这些被认为已经失传的古籍！

2000 年后，我们终于可以阅读卷轴了！

下图 3D 还原了，岩浆吞噬图书馆的情境。

这些卷轴在公元 79 年维苏威火山的爆发中被碳化

直到 18 世纪，这些卷轴被挖掘出来。

目前，有 800 多卷被保存在意大利那不勒斯的一个图书馆中。

▲ 一位艺术家对珍藏卷轴图书馆的渲染

然而，这些碳化的卷轴无法在不损害的情况下展开。

一份卷轴不同的拍摄视角，看得出已经完全碳化，像一个木头块。

当任何人尝试展开卷轴，结果就是支离破碎。

那么，问题来了，我们该如何阅读这些卷轴？

2023 年 3 月 15 日，Nat Friedman、Daniel Gross 和 Brent Seales 发起了 Vesuvius Challenge，就是为了解决这一世纪难题。

十个月前，我们发起了 Vesuvius Challenge，旨在解决赫库兰尼姆莎草纸书卷这一古老问题。这是一批在公元 79 年维苏威火山爆发时被高温烤焦的莎草纸卷轴图书馆。
今天，我们欣喜若狂地宣布，我们疯狂的项目成功了。2000 年后，我们终于可以阅读卷轴了！

这场挑战赛，要求参赛者在卷轴的 4 平方厘米区域内，至少找到 10 个字母。

最诱人的是，挑战赛为成功破译者提供超 100 万美元的奖金。

来自法国科学院的卷轴在牛津附近的 Diamond Light Source 粒子加速器进行了成像，然后公布了这些卷轴的高分辨率 CT 扫描图像。

以艺术化的方式构建 3D 卷轴

古卷是如何展开的？

大体说，虚拟展开卷轴分三个步骤进行：

扫描：利用 X 射线断层扫描技术对卷轴或碎片进行 3D 扫描。
分割：在 3D 扫描图像中追踪卷曲的纸莎草层，随后将其展开或铺平。
墨迹检测：借助机器学习模型，识别铺平后段落中的墨迹区域。

这些卷轴是在位于英格兰牛津附近的 Diamond Light Source（一种粒子加速器）扫描的。

该机器可以产生的高强度平行 X 射线束，使得成像快速、准确且分辨率高。通过断层重建算法，X 射线图片被转化为 3D 体素体积，形成一系列的切片图像。

接下来，需要在 3D 空间中识别出单独的纸莎草纸张，这一步骤主要依赖于一个名为 Volume Cartographer 的工具。

Seth Parker 在 Diamond Light Source 粒子加速器扫描卷轴

如下动画向我们展示了在 Volume Cartographer 中如何进行手动和自动分割操作。

最终步骤是，墨迹检测。

对于完整卷轴的大规模扫描，墨迹检测一直是个挑战，直到最近挑战赛发起团队在两个方向上取得了突破：

裂纹模式

去年夏天，Casey Handmer 在检查平铺后的表面体积时，发现了一种奇特的裂纹模式，这些裂纹似乎组成了文字。

Casey 因这一发现赢得了首个墨迹奖，并与社区共享了他的发现，随后引发了一系列的研究活动。

Kaggle 竞赛

与此同时，数百支团队在 Kaggle 竞赛中努力构建出最佳的机器学习模型，目标是检测那些在几百年前卷轴物理解卷过程中脱落的碎片上的墨迹。

与之前不同的是，他们利用了这些碎片照片上的真实数据进行训练，而不是标记尚未发现的裂纹。

虽然这些努力产生了一些优秀的模型，但它们在分割团队处理的平铺图像上似乎并不奏效。

直到谷歌华人工程师 Youssef Nader 应用了领域适应技术，这一技术最终帮他赢得了第一字母奖的亚军。

在得到训练数据后，全球众多参与者通过计算机视觉、机器学习不懈努力，不到一年时间，立刻攻克破解古卷阅读这一难题。

10 个月的时间，他们取得了成功。终于，在经过 275 年漫长的时间中，我们有能力阅读这些卷轴：

下图是 PHerc.Paris. 4（法国科学院）的部分文本，2000 年来首次被人阅读。大约 95% 的卷轴内容仍待揭晓。

卷轴字体被揭晓那刻，就会发现，被两千年的泥土和灰烬封存的祖先思维再次展现在世人面前！

那么，都有谁拿下了这次的大奖？

三人团队，斩获 70 万美元大奖

在众多参赛作品中，有一份作品非常突出。评审结果公布，三人团队获得了 Vesuvius Challenge 70 万美元大奖，他们分别是 Youssef Nader、Luke Farritor 和 Julian Schilliger。

这三位成员的名头可不小，而且是这场挑战赛中最重要的贡献者。

值得一提是，21 岁的 Luke Farritor 是一名计算机学生，曾在 SpaceX 实习，是史上第一位从赫库兰尼姆卷轴读出整个单词 ΠΟΡΦΥΡΑϹ（意为紫色）的人，并赢得了首字母奖的第一名。

就连他的个人主页，字体都有种年代久远的感觉。

柏林自由大学的博士生 Youssef Nader 在去年 10 月就读出了几列文本，并赢得了第二名的首字母奖。他的成果特别清晰易读，自然成为了团队的 lead。

还有 Julian Schilliger，是来自苏黎世联邦理工学院（ETH Zürich）机器人学学生，因其在 Volume Cartographer 上的卓越工作而赢得了三个分割工具奖，让我们能够看到如今的纸莎草区域 3D 映射。

为了拿下最终的大奖，三人组建了一个强大的团队，并向评审提交了一份，如今被评为最易读的作品。

提交的文件中，包含了三种不同的模型架构的结果，互相印证。其中基于 TimeSformer 的模型输出了最佳图像。

为了防止过拟合和数据幻读，他们采取了多种措施，包括采用多架构结果、研究不同的输入 / 输出窗口大小、应用标签平滑和多样化的验证方法。

这个墨水检测代码已经在 GitHub 上开源。

▲ 获奖者的主提交图片（TimeSformer 64x64）

除了卓越的墨迹检测能力，这份作品还展示了迄今为止，我们见过的最强大的自动分割技术。

便是由 Julian 开发的 ThaumatoAnakalyptor（大致意为「奇迹揭示者」）能够从多个卷轴中生成大量纸莎草片段。

对已知区域的重新分割验证了之前的墨迹发现，全新的分割则揭示了如卷轴最外层包裹等其他地方的文字。

来自自动分段的输出。顶行与提交图像重叠，底行有新的分段。

谷歌华人工程师拿下亚军

此外，除了第一名拿下大奖，Vesuvius Challenge 还评出了三个并列的亚军，将各自获得 50,000 美元奖金。

这些团队在墨迹标记和采样的细节处理上各有创新。

谷歌华人工程师 Shao-Qian Mah

技术细节是对 UNETR++ 模型进行了定制调整。这是一种基于变压器的 UNET 衍生工具，在医学成像中用作 3D 特征提取器，对深度层进行最大池化处理，然后使用基于 Segformer B-5 的最终特征提取器。

另外，还有 2 个团队共同获得亚军。

团队二：Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, João Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和 Odemir Martinez Bruno。

团队三：Louis Schlessinger 和 Arefeh Sherafati。

5% 的卷轴，写了什么？

到目前为止，研究团队已经成功展开，并阅读了第一卷卷轴的约 5%，并对露出的文字进行了初步转录。

初步的阅读提供了这篇哲学文本的一瞥，根据学者的解读：

这篇文本主要探讨的是快乐，正确地理解快乐，在伊壁鸠鲁哲学中是最高的善。在卷轴的两段连续的文字中，作者探讨了食物等商品的可用性是否，以及如何影响它们提供的愉悦。
那些稀缺的东西是否比大量存在的东西带来更多的快乐？作者认为不是：「就像食物一样，我们不会马上相信稀缺的东西绝对比丰富的东西更令人愉快。但是，我们是不是更容易放弃那些大量存在的东西呢？这样的问题经常会被频繁地提出讨论。
由于这是卷轴的结尾，这种表述可能意味着在同一系列作品的后续书籍中还有更多内容。在文本的开头，提到了一位名叫 Xenophantos 的人，可能是同一位人物 —— 假设是一位音乐家 —— 也在 Philodemus 的《关于音乐》一作中被提及。

Philodemus，作为伊壁鸠鲁学派的一员，被认为是别墅中的常驻哲学家，在那里发现卷轴的小图书馆里工作。

初步、粗略的转录草稿如下：

在卷轴的后面：

在文本的结尾部分，作者对他的对手进行了尖锐的批评，他们「在定义快乐的问题上，无论是从总体上还是具体上，都无话可说」。

最后，卷轴以这样的话结束：

…… 我们不是不对某些事情提出质疑，而是对其他事情有所理解 / 记忆。并且，当这些事情经常显露出来那样，我们明白说出真相是很重要的！

学者们或许会将其称之为一篇哲学论文。

但对我们而言，是如此地熟悉，古轴的第一篇竟是讲述「如何享受生活」的两千年前的文章。

在结尾段落里，Philodemus 是否在批评斯多葛学派，声称斯多葛主义是一个不完整的哲学。因为它「对于快乐一无所知」？

他似乎在讨论的问题 —— 生活的快乐以及什么让生活变得有价值 —— 仍然是我们今天思考的话题。

图片识别准确度如何？

人人皆知，机器学习模型通常会产生「幻觉」，即输出与其训练数据相似、但实际上是虚构的文本或图片。

同样，参赛者可能通过自己编造图像来作弊，例如将图像嵌入到模型权重中。

那么，如何确保这件事不会发生？这里有几种验证方法：

技术复现

Vesuvius Challenge 技术审查团队亲手复现了获奖作品，确保完全理解了代码的每个细节，并独立运行代码时，得到了与原作品相似的图像。

多次提交相同区域的图片

你可能注意到，所有提交的图片都展示了卷轴的同一区域。Vesuvius Challenge 向所有参赛者提供了分割团队用 CT 扫描创建的 3D 映射的纸莎草片段。

小范围的输入 / 输出

墨迹检测模型并不是基于希腊字母、光学字符识别（OCR）或语言模型。它们是独立地识别 CT 扫描中的微小墨点，这些墨点聚集起来后才形成了文字。因此，图片中显示的文本并非机器学习模型虚构出来的，而是直接基于 CT 扫描中的实际数据。

▲ 模型采用了较小的数据处理窗口：在一些情况下，它的输出结果甚至仅限于两种状态：「有墨迹」和「无墨迹」，这极大地降低了模型错误地生成类似字母形状的可能性

下一步是破译一部完整的作品。

Nat Friedman 宣布了下一轮 2024 年 Vesuvius Challenge 奖，目标是在年底前阅读 85% 的卷轴。

与此同时，他表示，仅仅是走到这一步就「感觉像是一个奇迹，我不敢相信它竟成功了」。

参考资料：

https://scrollprize.org/grandprize
https://www.nature.com/articles/d41586-024-00346-8

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。