腾佑旗下产品:
云服务器 智能五合一建站 咨询热线:400-996-8756
绑定享折扣 注册百度云
百度人脸识别
人脸识别 文字识别 图像识别 语音识别
  • 最新资讯
  • 热门资讯
  • 最热资讯
人工智能http://ai.tuidc.com/templets/default/img/advertising_space_right_3.jpg

百度飞桨PaddleVideo开源视频智能封面生产方案

发布时间:2022-01-20 09:40 作者:创始人

简述:今天给大家分享的是百度飞桨PaddleVideo开源的知识增强视频多模态&大规模分类打标签方案和视频智能封面生产方案,下面我们一起来了解下!

  今天给大家分享的是百度飞桨PaddleVideo开源的知识增强视频多模态&大规模分类打标签方案和视频智能封面生产方案,下面我们一起来了解下!

  近年来,视频行业持续高速成长,带动数字经济新发展。在视频用户规模持续扩大的同时,产业对于海量多样视频内容的智能化生产及应用的需求也愈发明显。如何对海量视频数据内容进行分析?如何迅速给视频作品打上标签以便于智能推荐?如何筛选好的片段作为视频封面提升内容吸引力?……传统的处理方式需要耗费巨大的人力,智能视频内容分析和生产越来越受到业界的重视。

  如何实现视频内容智能化分析及生产,目前还存在一些技术挑战:

  1、信息多维理解:视频的标题、字幕、画面、语音等信息中蕴含了丰富的视频信息,如何利用多维信息,提升模型高层次语义理解能力仍有很大难度。

  2、计算资源消耗:视频模型的训练需要消耗大量的计算资源。在实际业务中,如何降低成百上千万的untrimed视频,视频分类模型训练所需的机器成本和时间成本是关键。

  3、智能筛选生成:如何利用视频帧的质量、精彩程度、内容相关度提取较优帧和优化面。

  接下来,将为大家介绍PaddleVideo开源的知识增强视频多模态&大规模分类打标签方案和视频智能封面生产方案。

  视频分类打标签方案(多模态&大规模)

  多模态视频分类标签模型MultimodalVideoTag

  MultimodalVideoTag基于真实短视频业务数据,融合视频文本、图像、音频三种模态进行视频多模标签分类。模型提供一级标签25个,二级标签200+个,标签准确率超过85%。相比仅使用视频图像特征,可显著提升高层语义标签提取准确率。MultimodalVideoTag原理示意如下图1.1所示。


百度飞桨PaddleVideo开源视频智能封面生产方案

  1.1多模态视频分类标签框架


  模型使用三个分支抽取各个模态特征,再进行多模态特征融合,然后进行多标签分类。

  文本分支:使用基于融入实体信息的强大预训练ERNIE,提升文本表征能力,固定住ERNIE的参数,后置TextCNN网络学习领域内知识,加速模型训练;

  图像分支:使用预训练的ResNext对图像抽取高层语义特征,同时使用Bi-LSTM得到序列信息;

  音频分支:使用预训练的VGGish网络抽取音频特征,通过Bi-LSTM获得时序信息;

  多模融合:结合文本与图像的cross attention、文本与音频的cross attention、多模态late fusion处理,提升不同模态的交互能力。使用高语义的文本信息影响图像、音频时间序列的注意力选择,对视频内容杂乱的情况下有较好抵御噪声能力,效果显著优于多模态特征直接拼接的效果。详细结果见表1.2,融入文本特征显著提升模型效果,加入textcnn后置网络提升领域迁移能力,使用cross attention进一步提升模型效果。


百度飞桨PaddleVideo开源视频智能封面生产方案

  表1.2多模态融合实验结果


  多模态视频分类标签模型MultimodalVideoTag的功能是给视频打多个描述视频内容的标签,可用于内容圈选、招稿以及投放等多个推荐系统场景。效果展示如图1.3。


百度飞桨PaddleVideo开源视频智能封面生产方案

  1.3多模态视频分类标签MultimodalVideoTag效果展示


  大规模视频分类模型VideoTag

  VideoTag基于百度短视频业务千万级数据,支持3000个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用,标签准确率达到89%。

  VideoTag采用两阶段建模方式,即图像建模和序列学习。第一阶段,使用少量视频样本(十万级别)训练大规模视频特征提取模型(Extractor);第二阶段,使用千万级数据训练预测器(Predictor),从而实现在超大规模(千万/亿/十亿级别)短视频上产业应用,其原理示意如图1.4所示,VideoTag效果展示如图1.5。


百度飞桨PaddleVideo开源视频智能封面生产方案

  图1.4VideoTag原理图


百度飞桨PaddleVideo开源视频智能封面生产方案

  图1.5 VideoTag效果展示


  VideoTag视频处理流程如下:

  1.数据处理:视频是按特定顺序排列的一组图像的集合,这些图像也称为帧。视频分类任务需要先对短视频进行解码,然后再将输出的图像帧序列灌入到VideoTag中进行训练和预测。

  2.图像建模:先从训练数据中,对每个类别均匀采样少量样本数据,构成十万量级的训练视频。然后使用TSN网络进行训练,提取所有视频帧的TSN模型分类层前一层的特征数据。在这个过程中,每一帧都被转化成相应的特征向量,一段视频被转化成一个特征序列。

  3.序列学习:采用Attention clusters、LSTM和Nextvlad对特征序列进行建模,学习各个特征之间的组合方式,进一步提高模型准确率。由于序列学习相比于图像建模耗时更短,因此可以融合多个具有互补性的序列模型。示例代码仅使用Attention_LSTM网络进行序列特征预测。

  4.预测结果:融合多个模型结果实现视频分类,进一步提高分类准确率。

  视频智能封面生成方案

  视频智能封面是通过对视频内容的理解,智能分析视频帧的质量、精彩程度、内容相关度,提取较优帧或优片段作为视频封面,提升内容吸引力。

  飞桨开源了视频智能封面AI算法。视频智能封面应用处理流程如图2.1所示,通过基于PP-TSM的视频质量分析模型,对视频镜头打分。通过人脸美观度、图像实体标签,获取视频内容信息。综合上述视频质量和内容信息进行加权打分后处理,并引入聚类操作滤除重复样本,获取视频图像或片段粒度的视频智能封面。


百度飞桨PaddleVideo开源视频智能封面生产方案


  图2.1视频封面图处理流程


  针对视频质量分析环节,我们开源了基于PP-TSM的视频质量分析模型。

  该模型的效果与性能明显优于基于均值和方差的GSTVQA模型,如表2.2所示。


百度飞桨PaddleVideo开源视频智能封面生产方案

  表2.2基于PP-TSM的视频质量分析模型与GSTVQA对比


  心动不如行动,大家可以直接前往GitHub地址获得完整开源项目代码,记得Star收藏支持一下哦!https://github.com/PaddlePaddle/PaddleVideo

  相关商业解决方案地址如下,欢迎试用:https://cloud.baidu.com/solution/media/index.html

  更多百度飞桨PaddleVideo开源内容,百度云服务中心持续分享中!

  推荐阅读:百度AI图像识别技术助力快消品企业人效提升

点击展开全文

腾佑AI(ai.tuidc.com) 成立于2007年,一直致力于发展互联网IDC数据中心业务、云计算业务、 CDN业务、互联网安全及企业客户技术解决方案等产品服务, 2018年成为百度云河南服务中心。主营服务器租用,服务器托管,虚拟主机, 域名注册,机柜租用,主机租用,主机托管,带宽租用,云主机,CDN加速 , WAF防火墙,网络安全,人脸识别,文字识别,图像识别,语音识别等业务;

售前咨询热线:400-996-8756

备案提交:0371-89913068

售后客服:0371-89913000

热门活动

腾佑智能建站
  • 热门资讯
  • 随便看看

联系方式

400-996-8756 点击这里给我发消息 AI@tuidc.com
腾佑AI人工智能

微信公众号

腾佑AI人工智能

手机站

COPYRIGHT 2007-2020 TUIDC ALL RIGHTS RESERVED 腾佑科技-百度AI人工智能_百度人脸识别_图像识别_语音识别提供商

地址:河南省郑州市姚砦路133号金成时代广场6号楼13层 I CP备案号:豫B2-20110005-1 公安备案号: 41010502003271

声明:本站发布的内容版权归郑州腾佑科技有限公司所有,本站部分素材来源于网络及网友投稿,若无意中侵犯了您的版权,请致电在线客服我们将在核实后予以删除!