百度NLP开源UNIMO已被NLP顶级会议ACL 2021主会正式录用

发布时间：2021-08-17 10:15 作者：未知

分享到： QQ空间新浪微博腾讯微博人人网微信

简述：今天给大家带来的是百度NLP统一模态预训练方法已被NLP顶级会议ACL 2021主会正式录用为oral长文的相关信息，下面我们来看具体详情！

　　今天给大家带来的是百度NLP统一模态预训练方法已被NLP顶级会议ACL 2021主会正式录用为oral长文的相关信息，下面我们来看具体详情！

　　百度首创地提出了语言与视觉一体的预训练方法UNIMO，提供了一种新的统一模态学习范式，打破了文本、图像和图文对等数据间的边界，让机器可以像人一样利用大规模异构模态数据，学习语言知识与视觉知识并相互增强，从而实现感知与认知一体的通用AI能力。

　　百度在2021年深度学习开发者峰会WAVE SUMMIT上开源了语言与视觉一体的预训练模型ERNIE-UNIMO，其核心方法UNIMO已经被NLP顶级会议ACL 2021主会正式录用为oral长文。

　　AI系统能否像人一样，使用一个统一的大脑模型，实现感知认知一体的通用能力？基于此出发点，百度提出的UNIMO试图构建面向各种不同模态的统一预训练模型。

　　论文地址：https://arxiv.org/abs/2012.15409

　　代码地址：https://github.com/PaddlePaddle/ERNIE/tree/develop/ernie-unimo

　　此方法首创的同时还能学习大量的文本、图像、图文对数据，通过跨模态对比学习，有效的让语言知识与视觉知识进行统一表示和相互增强。UNIMO在语言理解与生成、跨模态理解与生成，4类场景共13个任务上超越主流的文本预训练模型和跨模态预训练模型，同时登顶视觉问答榜单VQA、文本推理榜单aNLI等权威榜单，首次验证了通过非平行的文本与图像等单一模态数据，能够让语言知识与视觉知识相互增强。目前UNIMO已经逐步在百度的产品中落地应用。

　　UNIMO方法介绍

　　大数据是深度学习取得成功的关键基础之一。根据应用数据的模态不同，深度学习应用领域大体包括：在文本数据上进行自然语言处理，在视觉数据上进行视觉应用，在图文数据上进行跨模态应用。显然，人类大脑对各种模态数据的学习并非独立的，比如，人类大脑在看到图片之后能够自动联想到相关的语言知识，反之亦然。对各种模态数据的融会贯通，使得人类能够充分学习各类语言、视觉、语音知识并相互增强，通过统一的模型展现出强大的智能水平。那么，基于深度学习的AI系统是否也能像人一样同时学习异构模态数据呢？如果能够实现，无疑将进一步打开深度学习对大规模数据利用的边界，从而进一步提升AI系统的感知与认知一体的通用AI能力。

　　为此，百度提出面向异构模态数据的统一预训练方法UNIMO，同时使用文本、图像和图文对数据进行训练，学习文本和图像的统一语义表示，从而具备同时处理多种单一模态和跨模态下游任务的能力。UNIMO的核心模块是一个Transformer网络，在具体训练过程中，文本、图像和图文对三种模态数据随机混合在一起，其中图像被转换为目标（object）序列，文本被转换为词（token）序列，图文对被转换为目标序列和词序列的拼接。UNIMO对三种类型数据进行统一处理，在目标序列或者词序列上基于掩码预测进行自监督学习，并且基于图文对数据进行跨模态对比学习，从而实现图像与文本的统一表示学习。进一步的，这种联合学习方法也让文本知识和视觉知识互相增强，从而有效提升文本语义表示和视觉语义表示的能力。

　　异构模态的统一预训练最大的挑战是如何跨越不同模态间的语义鸿沟从而实现语义表示的统一。如下图所示，UNIMO提出了创新的跨模态对比学习方法，同时引入相关联的图文对数据、文本数据和图像数据进行联合对比学习。具体地，UNIMO通过文本改写的方式，对图文对进行数据增广，获得大量的正例和强负例图文对数据。同时为了更好的利用文本和图像数据，UNIMO通过文本与图像检索，获得相关的图像和文本作为正例。这样利用扩充后的多种类型的正例以及高质量强负例，UNIMO在统一的语义空间上进行联想对比，从而能够学习到精确对齐的跨模态语义表示。

　　UNIMO实验结果

　　在实验方面，UNIMO使用了大量的文本、图像和图文数据进行联合学习，同时在各种单一模态和跨模态下游任务上进行验证。预训练数据部分，文本语料包括Wikipedia、BookCorpus、OpenWebText等共54G语料；图像数据是从互联网爬取的170万张图像；而图文对数据则包括COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。下游任务既包括图文搜索、视觉问答、图描述生成、视觉推断等跨模态任务，也包括文本分类、阅读理解、文本摘要、问题生成等各种文本任务。模型上，Base基于12层的Transformer，而Large使用24层。

　　在跨模态任务上，论文主要对比ViLBERT、UNITER、Oscar、Villa等最新的跨模态预训练模型。实验结果表明，UNIMO在图文检索Flick、视觉推断SNLI-VE、视觉问答VQA、图描述生成CoCo Caption上均稳定地超过此前的各种预训练模型，充分说明了统一预训练UNIMO模型能够有效地处理各种跨模态任务。

　　特别地，UNIMO同时还能处理纯文本任务。此前的跨模态预训练模型，在处理纯文本任务的时候效果急剧下降，部分任务下降幅度甚至超过10-20个点。而UNIMO在各类文本理解和生成任务上，包括文本分类、文本推断、文本摘要、阅读理解和问题生成，均取得不错的效果，超过RoBERTa、XLNet、UniLM等经典文本模型。

　　为了验证UNIMO进行单一模态和跨模态统一学习的必要性，论文进行了分离实验。实验结果表明，当不使用文本数据进行预训练的时候UNIMO在跨模态任务上效果有所下降。而当不使用图文对数据和图像数据的时候，UNIMO在文本任务上同样会下降。这充分说明，UNIMO统一学习的方式，能够让文本知识与视觉知识相互增强，有效提升任务效果。

　　UNIMO应用

　　UNIMO可以支持各类文本与跨模态任务，既可以支持以文搜图和以图搜文，也能支持根据图片生成文字描述、根据文字描述自动生成图片，还支持对图片内容进行问答。当然UNIMO也支持纯语言的任务，如文本推理、阅读理解、文本生成等。从实际应用任务的结果来看，研究发现UNIMO能够让视觉和语言互相增强，从而实现更好的应用效果。目前部分技术已经开始在百度搜索中落地，帮助用户获取更符合需求的图片、视频。这里看下实际任务上的样例效果。

　　跨模态检索：以文搜图、以图搜文

　　UNIMO能够根据文字描述搜索相关图片，或者根据图片搜索相关文本描述。从结果上看，UNIMO能够更准确的理解文字或图片的语义，检索出更匹配的图片或文字。

　　跨模态问答：

　　UNIMO也支持使用自然语言对图片内容进行提问。UNIMO能理解图片中的内容和概念，并结合模型学习到的背景知识，准确的进行推理回答。

　　跨模态生成：根据文字生成图片

　　UNIMO能够根据文字描述生成对应的图片。从结果中，我们可以发现UNIMO能够很好地对齐视觉和语言的属性和概念，从而生成准确清晰的图片。

　　百度首创地提出了语言与视觉一体的预训练方法UNIMO，提供了一种新的统一模态学习范式，打破了文本、图像和图文对等数据间的边界，让机器可以像人一样利用大规模异构模态数据，学习语言知识与视觉知识并相互增强，从而实现感知与认知一体的通用AI能力。或许，异构模态的统一学习是迈向通用人工智能的关键节点之一。未来百度将在统一模态学习上做出更多工作和应用，敬请期待。

　　更多百度NLP相关内容，百度云服务中心持续分享中！

　　推荐阅读：连续霸榜的百度EasyDL到底有多强？

点击展开全文

腾佑AI(ai.tuidc.com) 成立于2007年，一直致力于发展互联网IDC数据中心业务、云计算业务、 CDN业务、互联网安全及企业客户技术解决方案等产品服务， 2018年成为百度云河南服务中心。主营服务器租用，服务器托管，虚拟主机，域名注册，机柜租用，主机租用，主机托管，带宽租用，云主机，CDN加速， WAF防火墙，网络安全，人脸识别，文字识别，图像识别，语音识别等业务；

售前咨询热线：400-996-8756

备案提交：0371-89913068

售后客服：0371-89913000