最新资讯
热门资讯
最热资讯

文字识别相关咨询

图像识别相关咨询

语音识别相关咨询

人脸识别相关咨询

人工智能http://ai.tuidc.com/templets/default/img/advertising_space_right_3.jpg

当前位置:
资讯中心 > 图像识别 >

这个AI算法就是蒙娜丽莎说Rap的秘密

发布时间：2021-12-08 10:17 作者：创始人

分享到： QQ空间新浪微博腾讯微博人人网微信

简述：今天给大家分享的是可以让蒙娜丽莎说Rap、让苏轼先生开口念诗、让Gollum唱BlackPink的IceCream的AI算法，下面我们一起来了解下！

　　今天给大家分享的是可以让蒙娜丽莎说Rap、让苏轼先生开口念诗、让Gollum唱Black Pink的Ice Cream的AI算法，下面我们一起来了解下！

　　蒙娜丽莎说Rap、苏轼先生开口念诗、Gollum唱Black Pink的Ice Cream。是的，你没有看错，本篇给大家介绍的这个AI算法可以让你零基础5分钟实现上述超级Fancy的特效，亲手制作点击量过百万、霸榜热搜的超级视频。

　　话不多说，让我们先看效果！

这个AI算法就是蒙娜丽莎说Rap的秘密

　　不仅如此哦～最近大火的虚拟美妆博主柳夜熙、上周百度发布的央视总台首个AI手语主播以及各大虚拟偶像等等数字人的核心技术中，让数字人开口说话的也是这个AI算法。

　　那这到底是什么神奇的技术呢？

　　答案就是飞桨开源套件PaddleGAN中的新晋宠儿——Wav2lip模型

　　赶紧上项目查看源码及文档教程吧，这个项目还提供热门GAN模型，如AnimeGANv2、GauGAN、First Order Motion的实现，开源不易，希望大家Star支持！

　　https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md

这个AI算法就是蒙娜丽莎说Rap的秘密

更贴心的是，完整项目代码已公开于AI Studio，大家动动手指即可体验：

　　https://aistudio.baidu.com/aistudio/projectdetail/3156519?ref=baiduai2

　　下面给大家拆解下技术原理和具体的操作步骤，手把手教你实现苏轼念诗，蒙娜丽莎唱Rap或者任何你心仪的Idol说情话⁄(⁄⁄•⁄ω⁄•⁄⁄)⁄。

　　这是一个输入一段语音，使目标人物图片、视频的唇形，根据语音进行自动匹配并运动起来的任务。因此，我们需要准备一段音频和一段人像/动漫人物视频，将音频和视频输入Wav2lip模型中，经过Wav2lip模型预测后，便会输出一段目标人物/动漫人物说出输入音频的视频，至此，「千万级」配音视频就完成啦~

这个AI算法就是蒙娜丽莎说Rap的秘密

　　PaddleGAN的唇形迁移能力——Wav2lip

　　Wav2lip模型实现唇形与语音精准同步突破的关键在于：

　　采用了唇形同步判别器，以强制生成器持续产生准确而逼真的唇部运动。

　　此外，通过在鉴别器中，使用多个连续帧而不是单个帧，并使用视觉质量损失（而不仅仅是对比损失）来考虑时间相关性，从而改善了视觉质量。

这个AI算法就是蒙娜丽莎说Rap的秘密

　　万能的Wav2lip模型适用于任何人脸、任何语音、任何语言！对任意视频都能达到很高的准确率，都可以实现无缝地与原始视频融合，无论是视频效果还是语音效果都很逼真。

这个AI算法就是蒙娜丽莎说Rap的秘密

　　与此同时，PaddleGAN针对Wav2Lip模型进行了高清优化，使唇形拟合更细腻，更加逼真。

　　PaddleGAN Wav2lip的使用方法

　　在PaddleGAN的帮助下，完成上述神奇的自制「配音/对口型」只需两步：

　　1、下载PaddleGAN并所需安装包

　　#下载PaddlePaddle安装包

　　#从github上克隆PaddleGAN代码（如下载速度过慢，可用gitee源）

　　!git clone

　　https://gitee.com/PaddlePaddle/PaddleGAN

　　#!git clone

　　https://github.com/PaddlePaddle/PaddleGAN

　　#本地安装PaddleGAN

　　%cd/home/aistudio/PaddleGAN

　　!pip install-v-e.

　　!pip install-r requirements.txt

　　!pip install librosa!pip install numba==0.53.1

　　2、使用唇形合成命令

　　%cd applications/

　　!python tools/wav2lip.py

　　--face/home/aistudio/1.jpeg

　　--audio/home/aistudio/2.m4a

　　--outfile/home/aistudio/pp_put.mp4

　　--face_enhancement

　　只需在如下命令中的face参数和audio参数分别换成自己的视频和音频路径，然后运行即可生成和音频同步的视频，运行完成后，会在当前文件夹下生成文件名为outfile参数指定的视频文件，该文件即为和音频同步的视频文件：

　　lface：原始视频，视频中的人物的唇形将根据音频进行唇形合成

　　laudio：驱动唇形合成的音频，视频中的人物将根据此音频进行唇形合成

　　loutfile：成品视频名

　　lface_enhancement：添加人脸增加特效

　　PaddleGAN的花样玩法

　　以为PaddleGAN就止于此？NoNoNo~

　　免费开源的宝藏套件PaddleGAN的能力当然不止于唇形迁移/生成的技术，里面满满都是种类丰富、趣味的图像/视频生成、处理能力。热门的前沿模型，如AnimeGANv2、GauGAN、First Order Motion等模型等待大家探索。

　　如图像风格迁移、视频修复、图像超分辨率、人像动漫化、照片动漫化、人脸编辑等等。

这个AI算法就是蒙娜丽莎说Rap的秘密

　　PaddleGAN就如一个「游乐场」，欢迎各位「玩家」加入，体验各类「游戏设施」，无需门票，如果玩得开心，记得点Star支持下~

　　https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md

这个AI算法就是蒙娜丽莎说Rap的秘密

　　更多AI算法相关内容，百度云服务中心持续分享中！

　　推荐阅读：百度飞桨EasyDL获评2021年度人工智能最佳产品

点击展开全文

腾佑AI(ai.tuidc.com) 成立于2007年，一直致力于发展互联网IDC数据中心业务、云计算业务、 CDN业务、互联网安全及企业客户技术解决方案等产品服务， 2018年成为百度云河南服务中心。主营服务器租用，服务器托管，虚拟主机，域名注册，机柜租用，主机租用，主机托管，带宽租用，云主机，CDN加速， WAF防火墙，网络安全，人脸识别，文字识别，图像识别，语音识别等业务；

售前咨询热线：400-996-8756

备案提交：0371-89913068

售后客服：0371-89913000