AI 剪片新进展：“一心二用”读剧本看影像，让预告片有情绪

2021-12-01 07:56智东西 - 程茜

本周一，爱丁堡大学的研究人员开发了一种基于人工神经网络的模型，用以自动生成电影预告片。

电影制作公司发布的预告片，通常是其宣传新电影时采用的促销策略中的关键要素。为了让预告片的效益最大化，该短片应该简要总结电影的情节，以吸引人的方式传达其艺术风格和情绪意境。

到目前为止，电影预告片主要是由人类制作的。然而，最近一些计算机科学家开始探索这些宣传片也可以由机器自动生成的可能性。

爱丁堡大学的研究人员将电影片段建模为图形，通过无监督学习算法来识别、生成电影预告片。

该模型在 11 月 16 日发表于 arXiv 上的一篇论文中提出。

论文链接：

https://techxplore.com/news/2021-11-automatically-movie-trailers.html

一、AI 剪片，兼顾叙事结构和情感

为了自动创建预告片，研究人员构建的算法模型需要先执行低级别的任务，如人物识别、动作识别和情绪预测，还需要执行更高级别的任务，如理解事件之间的联系及其因果关系，对特征及其动作进行推断。

考虑到任务的复杂性，算法模型直接从电影预告片中获取所有这些信息将需要成千上万个样本，而这些样本的处理和标注也将是一个挑战。

因此，以前的自动预告片生成方法仅仅集中在视听特征上是不足为奇的。

受人工编辑预告片的创造性过程的启发，为了更好地处理自动电影预告片生成的任务，爱丁堡大学的研究人员采用了一种自下而上的方法来生成预告片，他们将预告片分解为两个更简单且定义明确的子任务，即电影叙事结构的识别和对其传达的情感的预测，他们创建的模型可以处理电影的一部分视频和电影剧本中的文本提取。

“我们利用剧本作为信息的来源，提取关于电影中的事件、角色和场景的知识，然后利用这些知识在视频中确定值得发布预告片的镜头。”

“我们将电影建模为图形，镜头作为节点，用来表示图形之间的语义关系。”进行这项研究的三位研究人员 Pinelopi Papalamidi、Frank Keller 和 Mirella Lapata 在他们的论文中写道。

▲ 建立图片模型

“我们使用联合对比训练来学习这些镜头关系，通过无监督算法模型浏览图片并生成预告片。”

此外，未标注的剧本文本语料库也比较容易获得，可以用来对该模型进行预训练。

二、五大步骤，两个模型“研磨”剧本和影像

在这个算法模型中，对两个子任务的实现方式与传统的预告片产生方式不同。

首先是叙事结构的识别，即检索电影中最重要的事件。电影编剧中普遍采用的理论认为，电影中有五种关键事件，称为转折点（TPs），如下图所示，这五个关键事件分别为机会、计划改变、没有回报、主要挫折、高潮。

▲ 电影叙事中的五个关键事件

第二个子任务是情绪预测，研究人员将其视为镜头和唤起的情绪之间的关系近似值。

研究人员按照一种非监督的基于图形的方法来生成预告片。此外，镜头带有表示它们是否是关键事件的标签，并带有表示情绪强度，如积极或消极的分数。

▲ 选取关键转折点

该算法通过浏览利用电影建模生成的图形来创建预告片序列，然后由人工编辑进行审核和修改。

关键事件转折点识别和情绪预测的任务都得益于对电影内容的较低层次的理解。

事实上，该算法可以利用现成的模块来识别字符和图形位置、记录动作和定位语义单元。然而，这种方法大大增加了训练和推理过程中的预处理时间和内存需求，并且产生理解错误的问题。

因此，研究人员提出了一种对比学习机制，在这种机制中，利用只有在培训时间才能获得的电影剧本中的有效信息。电影剧本可以揭示电影如何被分割成场景，电影角色基本情况，他们在和谁说话，他们在哪里，他们在做什么等内容，也就是电脑的“场景标题”和“动作线”可以解释动作发生的位置、描述镜头看到的东西。

▲ 生成预告片

具体来说，研究人员构建了两个独立的神经网络模型，一个是基于剧本的文本网络，另一个是基于视频的时间线网络，并使用对比对它们进行联合训练。

结合起来，这两个神经网络可以识别电影中的关键时间，并呈现在预告片中。

文本网络还可以通过自我监督的学习对大量的电影剧本进行预处理，而不必收集和处理相应的电影画面。实验结果表明，这种对比训练方法是有益的，可以使预告片在内容和吸引力方面得到人们的好评。

▲ 研究人员提出的神经网络模型框架

三、41 部预告片，转折点评估更准确

研究人员通过一系列测试来评估该模型制作电影预告片的水平，结果显示它可以比其他用于生成电影预告片的基线方法更准确地识别电影中的转折点。

此外，研究人员还使用他们的模型为 41 部不同的电影制作了预告片。然后，他们在美国数据标注众包平台 Amazon Mechanical Turk 招募了一些观众，询问他们喜欢看的电影预告片是哪些，然后将电影原有的预告片和通过他们的模型生产的预告片进行对比，获得观众对两种预告片的评价。

有趣的是，大多数受访者更喜欢由他们的无监督模型创建的预告片，而不是由监督模型制作的预告片。也有部分预告片获得了较低的评价。

将电影建模为图片并进行大范围的计算，替代之前的单独选择镜头，有助于创建连贯的预告片。然而，同样的模式也存在确定，这种方法本身并不能保证高质量的预告片产出。

研究人员在他们的论文中补充说：“未来，我们希望更多专注于预测电影中的细粒度情绪的方法，例如，悲伤、厌恶、恐怖、快乐。在这项工作中，由于缺乏标记数据集，我们将积极、消极情绪视为情绪的替代品。”

结语：加速预告片制作，情感数据集仍欠缺

初步实验表明，Papalampidi、Keller 和 Lapata 创建的模型可能还不能制作出完美的预告片，对于预告片是否剧透、情绪传递的准确性问题还有待解决。将精细的情感知识从其他领域转移到预告片制作领域会导致不可靠的预测。未来的工作包括新的电影情感数据集，以及基于文本和视听线索的情感检测模型。

但该模型最终可能会被电影制作公司用来促进和加快预告片的制作。同时，该团队计划继续研究他们的技术，以进一步提高其生产的预告片的质量。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。