发布时间:2021-12-08 10:17 作者:创始人
简述:今天给大家分享的是可以让蒙娜丽莎说Rap、让苏轼先生开口念诗、让Gollum唱BlackPink的IceCream的AI算法,下面我们一起来了解下!
今天给大家分享的是可以让蒙娜丽莎说Rap、让苏轼先生开口念诗、让Gollum唱Black Pink的Ice Cream的AI算法,下面我们一起来了解下!
蒙娜丽莎说Rap、苏轼先生开口念诗、Gollum唱Black Pink的Ice Cream。是的,你没有看错,本篇给大家介绍的这个AI算法可以让你零基础5分钟实现上述超级Fancy的特效,亲手制作点击量过百万、霸榜热搜的超级视频。
话不多说,让我们先看效果!
不仅如此哦~最近大火的虚拟美妆博主柳夜熙、上周百度发布的央视总台首个AI手语主播以及各大虚拟偶像等等数字人的核心技术中,让数字人开口说话的也是这个AI算法。
那这到底是什么神奇的技术呢?
答案就是飞桨开源套件PaddleGAN中的新晋宠儿——Wav2lip模型
赶紧上项目查看源码及文档教程吧,这个项目还提供热门GAN模型,如AnimeGANv2、GauGAN、First Order Motion的实现,开源不易,希望大家Star支持!
https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md
更贴心的是,完整项目代码已公开于AI Studio,大家动动手指即可体验:
https://aistudio.baidu.com/aistudio/projectdetail/3156519?ref=baiduai2
下面给大家拆解下技术原理和具体的操作步骤,手把手教你实现苏轼念诗,蒙娜丽莎唱Rap或者任何你心仪的Idol说情话⁄(⁄⁄•⁄ω⁄•⁄⁄)⁄。
这是一个输入一段语音,使目标人物图片、视频的唇形,根据语音进行自动匹配并运动起来的任务。因此,我们需要准备一段音频和一段人像/动漫人物视频,将音频和视频输入Wav2lip模型中,经过Wav2lip模型预测后,便会输出一段目标人物/动漫人物说出输入音频的视频,至此,「千万级」配音视频就完成啦~
PaddleGAN的唇形迁移能力——Wav2lip
Wav2lip模型实现唇形与语音精准同步突破的关键在于:
采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。
此外,通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。
万能的Wav2lip模型适用于任何人脸、任何语音、任何语言!对任意视频都能达到很高的准确率,都可以实现无缝地与原始视频融合,无论是视频效果还是语音效果都很逼真。
与此同时,PaddleGAN针对Wav2Lip模型进行了高清优化,使唇形拟合更细腻,更加逼真。
PaddleGAN Wav2lip的使用方法
在PaddleGAN的帮助下,完成上述神奇的自制「配音/对口型」只需两步:
1、下载PaddleGAN并所需安装包
#下载PaddlePaddle安装包
#从github上克隆PaddleGAN代码(如下载速度过慢,可用gitee源)
!git clone
https://gitee.com/PaddlePaddle/PaddleGAN
#!git clone
https://github.com/PaddlePaddle/PaddleGAN
#本地安装PaddleGAN
%cd/home/aistudio/PaddleGAN
!pip install-v-e.
!pip install-r requirements.txt
!pip install librosa!pip install numba==0.53.1
2、使用唇形合成命令
%cd applications/
!python tools/wav2lip.py
--face/home/aistudio/1.jpeg
--audio/home/aistudio/2.m4a
--outfile/home/aistudio/pp_put.mp4
--face_enhancement
只需在如下命令中的face参数和audio参数分别换成自己的视频和音频路径,然后运行即可生成和音频同步的视频,运行完成后,会在当前文件夹下生成文件名为outfile参数指定的视频文件,该文件即为和音频同步的视频文件:
lface:原始视频,视频中的人物的唇形将根据音频进行唇形合成
laudio:驱动唇形合成的音频,视频中的人物将根据此音频进行唇形合成
loutfile:成品视频名
lface_enhancement:添加人脸增加特效
PaddleGAN的花样玩法
以为PaddleGAN就止于此?NoNoNo~
免费开源的宝藏套件PaddleGAN的能力当然不止于唇形迁移/生成的技术,里面满满都是种类丰富、趣味的图像/视频生成、处理能力。热门的前沿模型,如AnimeGANv2、GauGAN、First Order Motion等模型等待大家探索。
如图像风格迁移、视频修复、图像超分辨率、人像动漫化、照片动漫化、人脸编辑等等。
PaddleGAN就如一个「游乐场」,欢迎各位「玩家」加入,体验各类「游戏设施」,无需门票,如果玩得开心,记得点Star支持下~
https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md
更多AI算法相关内容,百度云服务中心持续分享中!
热搜词
微信公众号
手机站
COPYRIGHT 2007-2020 TUIDC ALL RIGHTS RESERVED 腾佑科技-百度AI人工智能_百度人脸识别_图像识别_语音识别提供商
地址:河南省郑州市姚砦路133号金成时代广场6号楼13层 I CP备案号:豫B2-20110005-1 公安备案号: 41010502003271
声明:本站发布的内容版权归郑州腾佑科技有限公司所有,本站部分素材来源于网络及网友投稿,若无意中侵犯了您的版权,请致电在线客服我们将在核实后予以删除!