你敢信,派大星当众宣称自己是钢铁侠,漫威宇宙和比基尼海滩梦幻联动:
I am Iron Man!
这深沉憨厚又有点喜感的嗓音,是派大星本星没错了。
而小扎也疯狂乱入,直接抢了派大星的台词,喊海绵宝宝去抓水母:
hi,spongebob,shall we go to catch jellyfishes?
没错,这又是 AI 的杰作。
这个名叫FakeYou 的语音伪造模型,最近火爆到服务器都被挤挂掉了。
像这位网友一样给马男波杰克写段台词:
suck a *. why are you still here?! did you eat my muffin? you are a worthless piece of no good shit who deserves to die. what are YOUU doing here? what are you doing here.
一键就可以还原他“致郁”的声音。
这“What are youuuu doing”的发音,确实够传神了。
目前上传的人物语音模型已经有很多,包括海绵宝宝、摩根・弗里曼、辛普森一家、马男波杰克、灭霸等等。
demo 在线可玩,快来试试~
操作也很简单,只需两步:
在图中第一个红框中的下拉菜单中选择你喜欢的人物,然后在下面的文本框中输入你希望 TA 说的话,再点击“Speak”就 ok 了。
另外,如果你还想让 TA 对上口型,FakeYou 也在线提供了相关功能。选择不同的视频 model,上传音频文件就可以了。
那 FakeYou 是怎么实现文本转语音和对口型的呢?
对于文本转语音的任务,FakeYou 提到了一系列的模型,主要是其中值得一提的是 MelGAN。
它的整体结构也比较简单,工作流是这样的:
首先将输入的文本转化为梅尔声谱图,然后再利用 GAN 去学习图中的特征,提取声音的信息。
最后再通过傅里叶逆变换还原出原始声波。
而对口型任务使用的则是 Wav2Lip 模型,与之前的对口型模型的区别在于,Wav2Lip 使用预训练的判别器,在检测唇同步时已经相当准确。
并将口型的真值和遮住口型的部分输入网络,用残差网络相连。
同时还使用了视觉判别器来提高视觉质量和同步精度,进一步提高模型质量。
FakeYou 的创作者主要是毕业于南方理工州立大学 Brandon Thomas,他是一名来自亚特兰大的工程师。
自这款 demo 改名为 FakeYou 之后,就受到很多网友的喜爱。因此有很多社区中的网友也来贡献“声音”。目前 FakeYou 中已经有几百个用于制作的语音模型。
如果没能找到合适的人物语音模型,也可以自己添加,来丰富 FakeYou。
如果你也有想让影视或者动漫中的人物说出你想听的话,可以参考文末的在线 demo 链接。
参考链接:
[1]https://fakeyou.com/
[2]https://arxiv.org/abs/1910.06711
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。