在线可玩！这款 AI 语音模型让派大星承认自己是钢铁侠，造假小扎对口型，火到挤爆服务器

2021-12-27 21:04 量子位 - 行早

你敢信，派大星当众宣称自己是钢铁侠，漫威宇宙和比基尼海滩梦幻联动：

I am Iron Man！

这深沉憨厚又有点喜感的嗓音，是派大星本星没错了。

而小扎也疯狂乱入，直接抢了派大星的台词，喊海绵宝宝去抓水母：

hi，spongebob，shall we go to catch jellyfishes?

没错，这又是 AI 的杰作。

这个名叫 FakeYou 的语音伪造模型，最近火爆到服务器都被挤挂掉了。

像这位网友一样给马男波杰克写段台词：

suck a *. why are you still here?! did you eat my muffin? you are a worthless piece of no good shit who deserves to die. what are YOUU doing here? what are you doing here.

一键就可以还原他“致郁”的声音。

这“What are youuuu doing”的发音，确实够传神了。

目前上传的人物语音模型已经有很多，包括海绵宝宝、摩根・弗里曼、辛普森一家、马男波杰克、灭霸等等。

demo 在线可玩，快来试试~

操作也很简单，只需两步：

在图中第一个红框中的下拉菜单中选择你喜欢的人物，然后在下面的文本框中输入你希望 TA 说的话，再点击“Speak”就 ok 了。

另外，如果你还想让 TA 对上口型，FakeYou 也在线提供了相关功能。选择不同的视频 model，上传音频文件就可以了。

FakeYou 如何 Fake

那 FakeYou 是怎么实现文本转语音和对口型的呢？

对于文本转语音的任务，FakeYou 提到了一系列的模型，主要是其中值得一提的是 MelGAN。

它的整体结构也比较简单，工作流是这样的：

首先将输入的文本转化为梅尔声谱图，然后再利用 GAN 去学习图中的特征，提取声音的信息。

最后再通过傅里叶逆变换还原出原始声波。

而对口型任务使用的则是 Wav2Lip 模型，与之前的对口型模型的区别在于，Wav2Lip 使用预训练的判别器，在检测唇同步时已经相当准确。

并将口型的真值和遮住口型的部分输入网络，用残差网络相连。

同时还使用了视觉判别器来提高视觉质量和同步精度，进一步提高模型质量。

FakeYou 创作者

FakeYou 的创作者主要是毕业于南方理工州立大学 Brandon Thomas，他是一名来自亚特兰大的工程师。

自这款 demo 改名为 FakeYou 之后，就受到很多网友的喜爱。因此有很多社区中的网友也来贡献“声音”。目前 FakeYou 中已经有几百个用于制作的语音模型。

如果没能找到合适的人物语音模型，也可以自己添加，来丰富 FakeYou。

如果你也有想让影视或者动漫中的人物说出你想听的话，可以参考文末的在线 demo 链接。

参考链接：

[1]https://fakeyou.com/

[2]https://arxiv.org/abs/1910.06711

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。