最新资讯
热门资讯
最热资讯

文字识别相关咨询

图像识别相关咨询

语音识别相关咨询

人脸识别相关咨询

人工智能http://ai.tuidc.com/templets/default/img/advertising_space_right_3.jpg

当前位置:
资讯中心 > 文字识别 >

百度发布预训练模型ERNIE-M可同时掌握96门语言

发布时间：2021-01-13 09:59 作者：未知

分享到： QQ空间新浪微博腾讯微博人人网微信

简述：今天腾佑AI人工智能给大家分享百度发布预训练模型ERNIE-M可同时掌握96门语言的相关信息，下面我们一起来看百度在自然语言处理领域的新突破！

　　今天腾佑AI人工智能给大家分享百度发布预训练模型ERNIE-M可同时掌握96门语言的相关信息，下面我们一起来看百度在自然语言处理领域的新突破！

　　2021年伊始，百度在自然语言处理领域取得最新突破，发布多语言预训练模型ERNIE-M。ERNIE-M通过对96门语言的学习，使得一个模型能同时理解96种语言，该项技术在5类典型跨语言理解任务上刷新世界最好效果。在权威跨语言理解榜单XTREME上，ERNIE-M也登顶榜首，超越微软、谷歌、Facebook等机构提出的模型。据了解，基于飞桨实现的ERNIE-M模型也会于近期开源。

　　论文链接:

　　https://arxiv.org/pdf/2012.15674.pdf

　　文心平台:

　　https://wenxin.baidu.com/

　　开源地址:

　　https://github.com/PaddlePaddle/ERNIE

　　跨语言理解

　　随着人工智能技术的不断发展，搜索引擎、智能客服、智能音箱等人工智能系统不断给人们带来更好的体验。然而，这些系统的构建往往依赖于大量的标注数据，而许多系统使用单一语言训练，并不能直接应用于其他语言，这对于机器理解标注语料稀少的小语种（比如布列塔尼语、冰岛语）来说无疑是一个巨大的挑战。如何构建统一的语言模型，理解多种语言，是近年来自然语言处理领域研究的热点。

　　多语言模型对于小语种这种低资源语言的理解十分有帮助。以情感分析系统为例，构建情感分析系统往往需要大量有标签数据，而小语种语言中的有标签数据十分稀缺，因而搭建小语种语言的情感分析系统十分困难。依托多语言模型的跨语言迁移能力可以解决该问题，在高资源语言标注数据上训练的模型直接对小语种语言进行理解，搭建小语种语言的情感分析系统。

　　XTREME评测是谷歌研究院、DeepMind和卡耐基梅隆大学于2020年4月发布的涵盖了12个语系40种语言的多语言权威评测榜单。其包括文本分类、结构化预测、语义检索和阅读理解等四类自然语言处理任务的9个数据集，自发布以来便引起了纽约大学、谷歌、微软等顶尖国际学术机构和科技公司激烈角逐。

　　2021年1月1日，ERNIE-M以80.9分的成绩登顶榜首，刷新了该榜单记录。

　　ERNIE-M背景

　　当前的技术主要通过单语语料分别学习不同语言的语义，再使用双语语料将不同语言的语义对齐。然而大部分语种的双语语料十分稀疏，限制了多语言模型的效果。为了突破双语语料规模对多语言模型的学习效果限制，提升跨语言理解的效果，百度研究人员提出基于回译机制，从单语语料中学习语言间的语义对齐关系的预训练模型ERNIE-M，显著提升包括跨语言自然语言推断、语义检索、语义相似度、命名实体识别、阅读理解在内的5种典型跨语言理解任务效果，并登顶权威跨语言理解评测XTREME榜首。

　　ERNIE-M原理

　　ERNIE-M基于飞桨PaddlePaddle框架训练，该模型构建了大小为25万的多语言词表，涵盖了96种语言的大多数常见词汇，训练语料包含了汉语、英语、法语、南非语、阿尔巴尼亚语、阿姆哈拉语、梵语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语等96种语言，约1.5万亿字符。

　　ERNIE-M的学习过程由两阶段组成。第一阶段从少量的双语语料中学习跨语言理解能力，使模型学到初步的语言对齐关系；第二阶段使用回译的思想，通过大量的单语语料学习，增强模型的跨语言理解能力。

　　在第一阶段的学习中，ERNIE-M提出了Cross-attention Masked Language Modeling（CAMLM）预训练算法。该算法在少量双语语料上捕捉语言间的对齐信息。在CAMLM中，将一对双语句子记为<源句子，目标句子>。CAMLM需要在不利用源句子上下文的情况下，通过目标句子还原被掩盖的词语。例如：输入的句子对是<明天会[MASK][MASK]吗，Will it be sunny tomorrow>，模型需要只使用英文句子<Will it be sunny tomorrow>来推断中文句子中掩盖住的词<天晴>，使模型初步建模了语言间的对齐关系。

　　在此基础上，ERNIE-M又提出了Back-translation Masked Language Modeling（BTMLM）预训练算法。该方法基于回译机制从单语语料中学习语言间的对齐关系。首先，通过第一阶段学习到的CAMLM模型生成伪平行句子，然后让模型学习生成的伪平行句子。模型在还原被掩盖的单词时，不仅可以依赖原始输入句子，也可以依赖生成的伪平行句子。例如，输入的单语句子是<我真的很喜欢吃苹果>，模型首先会依据输入的句子<我真的很喜欢吃苹果>生成伪双语平行句子<我真的很喜欢吃苹果，eat apples>。然后再对生成的伪平行句子<我真的很喜欢吃[MASK][MASK]，eat apples>学习。通过这种方式，ERNIE-M利用单语语料更好地建模语义对齐关系。

　　实验效果

　　ERNIE-M在跨语言自然语言推断、阅读理解、命名实体识别、语义相似度、跨语言检索等5个公开数据集上进行了实验，均取得了最优效果。百度研究人员通过两种方式评测了ERNIE-M的效果。

　　1）Cross-lingual Transfer：该方式将英文训练的模型直接在其他语言上测试，验证模型的跨语言理解能力。例如，让模型理解“这家餐厅环境不错”是正向情感，模型需要判断“I am very happy.”也是正向的情感。在实际应用中，如果缺乏某种语言的标注数据，该技术可以通过其他语言的标注数据对多语言模型训练解决该问题，降低小语种系统的构建难度。

　　2）Multi-language Fine-tuning：该方式使用所有语言的标注数据对模型进行多任务训练，验证在有本语言标注数据的情况下，模型能否利用其他语言的数据，进一步增强该语言的理解效果。

　　跨语言搜索跨语言检索任务是在双语语料库中检索语义相同的句子，如下图所示，ERNIE-M可使得用户只用某一种语言，例如汉语，便可检索到其他语言的结果，如英语、法语、德语等结果。该技术使信息跨越不同语言之间的鸿沟，帮助全球的网民搜索到更多有价值的信息。ERNIE-M在跨语言检索数据集Tatoeba上取得了准确率87.9%的效果。

　　自然语言推断

　　自然语言推断是自然语言理解中的一项重要的基准任务，该任务的目标是判断两句话之间的逻辑关系。多语言数据集XNLI数据集包含15种语言，既有英语、法语等常见语言也有斯瓦希里语等小语种语言。

　　ERNIE-M在Cross-lingual Transfer和Multi-language Fine-tuning两种模式下验证了效果，研究者用英语对ERNIE-M进行微调训练，在汉语、德语、乌尔都语等语言上测试，能达到平均准确率82.0%的效果。如果使用所有语言的训练语料，准确率可以进一步提升到84.2%。

　　阅读理解

　　阅读理解任务的目标是根据文章回答指定问题。为了评测ERNIE-M在阅读理解任务上的效果，ERNIE-M在Facebook提出的MLQA多语言阅读理解数据集上进行了评测。在该任务中，模型需要先在英语上进行训练，再在其他语言的数据集上评测。此项任务可以评估模型在跨语言问答任务的效果，帮助跨语言问答系统的搭建。该任务如下图所示，ERNIE-M在仅使用英语训练的情况下，不同语言的问题中有55.3%可以完全回答正确。

　　命名实体识别

　　命名实体识别任务的目标是识别出文章中的人名、地名、时间、机构等信息。其可以帮助人们快速地从大量文章中提取出有价值的信息。如下图所示，使用多语言模型可以帮助我们在小语种文章上做信息抽取。ERNIE-M在CoNLL数据集上进行评测，同时在Cross-lingual Transfer和Multi-language Fine-tuning两种模式下验证了效果。研究者用英语对ERNIE-M进行微调训练，在荷兰语、西班牙语和德语上进行了测试，平均F1能达到81.6%，如果使用所有语言的训练语料，平均F1可进一步提升至90.8%。

　　结语

　　打破不同语言之间的隔阂，实现机器跨语言理解是人工智能领域攻坚的重要难题。此次，百度的多语言预训练模型ERNIE-M首次提出从单语语料中学习语义对齐关系的预训练算法，打破了双语语料大小对多语言模型的效果限制，为跨语言的语义理解研究提供了新的思路。ERNIE-M技术具有广泛的应用前景，该技术可将基于汉语研发的人工智能系统，拓展到我国其他民族的语言理解上，帮助我们更好地分析各民族语言。此外，ERNIE-M技术也可辅助语言学家和考古学家去理解已经濒危或失传的语言，更好地保护我们的民族文化。

　　在刚刚结束的Wave Summit+2020峰会上，百度文心语义理解技术平台又推出了文心NLP开发套件，其基于业界领先的语义理解技术，对外提供更加灵活的NLP定制与服务能力，面向开发者和企业进行开放赋能。目前，文心平台已广泛应用于金融、通信、教育、互联网等各行各业，助力产业智能化发展。

　　百度文心语义理解技术平台：https://wenxin.baidu.com/

　　更多百度自然语言处理相关内容，腾佑AI人工智能持续分享中！

　　推荐阅读：百度AI全功能开发平台BML自动超参搜索技术详解

点击展开全文

腾佑AI(ai.tuidc.com) 成立于2007年，一直致力于发展互联网IDC数据中心业务、云计算业务、 CDN业务、互联网安全及企业客户技术解决方案等产品服务， 2018年成为百度云河南服务中心。主营服务器租用，服务器托管，虚拟主机，域名注册，机柜租用，主机租用，主机托管，带宽租用，云主机，CDN加速， WAF防火墙，网络安全，人脸识别，文字识别，图像识别，语音识别等业务；

售前咨询热线：400-996-8756

备案提交：0371-89913068

售后客服：0371-89913000