腾佑旗下产品:
云服务器 智能五合一建站 咨询热线:400-996-8756
绑定享折扣 注册百度云
百度人脸识别
人脸识别 文字识别 图像识别 语音识别
  • 最新资讯
  • 热门资讯
  • 最热资讯
人工智能http://ai.tuidc.com/templets/default/img/advertising_space_right_3.jpg

数据驱动AI技术进步—千言开源数据集全面升级

发布时间:2022-01-05 09:38 作者:创始人

简述:今天给大家分享的是数据驱动AI技术进步,“千言”开源数据集项目全面升级的相关内容,下面我们一起来了解下!

  今天给大家分享的是数据驱动AI技术进步,“千言”开源数据集项目全面升级的相关内容,下面我们一起来了解下!

  “千言”是由百度联合中国计算机学会、中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步。近日,在2021年12月12日的WAVE SUMMIT+2021深度学习开发者峰会上,清华大学长聘副教授黄民烈作了题为“千言:数据驱动技术进步”的演讲,回顾了千言过去一年中取得的进展和广泛影响力,并发布了千言的全新升级,重点聚焦大模型时代的机遇和挑战。此外,还推出了“百+”计划,邀请更多的专家学者共同建设千言,构建世界范围内的中文NLP影响力。

  中文开源数据集项目“千言”获得广泛关注和使用

  “千言”开源数据集项目自2020年8月发布以来,已经有来自清华、哈工大、中科院、美团、OPPO等14家单位的数据集作者加入共同建设,目前已经覆盖了10多个自然语言处理的任务,包含了开放域对话、机器阅读理解、机器同传、文本生成、情感分析等任务。“千言”为研究者提供了一站式的数据集浏览、整理、下载以及评测体验,受到了越来越多研究者的关注和使用,数据集下载量增长134%,相关任务的提交次数增长649%,增长非常显著。


数据驱动AI技术进步—千言开源数据集全面升级


  此外,千言还推动了多项自然语言处理的评测,截至目前总共支持了20多项技术评测,包含了语言与智能技术竞赛(LIC 2021)、CCF BDCI多技能对话评测、NLGIW 2021面向事实一致性的生成评测、CCF BDCI问题匹配鲁棒性评测、NAACL 2021机器同传评测等。其中,参与评测的人员有57%来自高校和科研院所,21%来自企业,在学术界和工业界都产生了很大的影响力。开源数据集和技术评测的联动,很好的推动了相关任务的技术研究和应用发展。

  “千言”升级:聚焦通用、可信、跨模态等大模型时代的机遇和技术挑战

  推动人工智能技术进步的三大驱动力是算法、算力和数据。其中,数据作为重要的基础,其数量和质量直接决定了算法能够达到的上限水平。人工智能的历史上,优秀的数据集极大地推动了领域技术的发展和行业的进步。近两三年,随着大模型技术的出现和发展,基于大模型的自然语言处理技术也取得了长足的进步。在取得进步的同时,大模型也带来了新的技术挑战和新的技术机遇,包括了通用、可信、跨模态等。“千言”的升级也重点聚焦在了这三个方面。

  第一,通用。通用指模型需要具有全面的、处理多个子任务的能力,同时需要在跨领域数据上具有较好的泛化能力。“千言”推出了多技能对话任务和多形态信息抽取任务来促进模型通用性的提升。在多技能对话任务中,期望模型能够同时处理多种对话子任务,包括知识对话、闲聊对话、推荐对话、画像对话等;在多形态信息抽取任务上,期望模型能够同时处理句子级关系抽取、句子级事件抽取和以及篇章级事件抽取等任务。

  第二,可信。可信是指模型在应用中需要有足够的鲁棒性、较高的可解释性以及结果的一致性。其中,为了促进提升模型的鲁棒性,“千言”发布了问题匹配鲁棒性数据集DuQM、阅读理解鲁棒性数据集DuReaderchecklist。为了提升模型的可解释性,“千言”发布了情感分析可解释数据集DuTrust。在事实一致性方面,“千言”则推出三个生成任务来综合进行评测,分别包括了文案生成数据集AdvertiseGen、摘要生成数据集LCSTS、问题生成数据集DuReaderQG。

  第三,跨模态。跨模态是指随着内容承载形式的多元化,模型需要具有多模态融合(语言、图像、语音、视频等)的内容理解等能力。为此,“千言”推出了机器同传数据集BSTC以及跨模态情感分析数据集DuVideoSenti来促进跨模态领域的发展。机器同传主要关注语言和语音跨模态的交互,而跨模态情感分析主要关注语言和视频跨模态的交互。

  经过了一年的发展,千言所覆盖的任务和数据集数量显著增加,从一开始的7个任务,发展到新的12个任务,对应的数据集数量,也从一开始的22个数据集,增加到了现在36个数据集。


数据驱动AI技术进步—千言开源数据集全面升级


  千言“百+”计划:共同构建世界范围内中文NLP的影响力

  为了更好地帮助数据集作者提升数据集影响力和推进相关技术发展,千言项目正式推出了“百+计划”,覆盖了“百+数据集作者”和“百+技术专家”。作为“百+数据集作者”,会被邀请进入千言学术委员会。千言会帮助数据集作者发布评测,并提供飞桨开源基线、评测平台和GPU算力的支持,提升数据集的影响力,推动技术的发展。“百+技术专家”则是针对优秀开发者和学生的认证,技术专家可以得到大量分享和交流技术方案的机会,并会受邀参与官方活动。


数据驱动AI技术进步—千言开源数据集全面升级


  中文是千年华夏文明传承的载体,是中华民族的骄傲和根基。在当下的人工智能时代,“千言”数据开源项目也希望与学术界、产业界携手,共同推动中文信息处理技术的进步,理解语言、拥有智能,改变世界,将华夏文明的宝藏学习并传承下去。

  更多中文NLP相关内容,百度云服务中心持续分享中!

  推荐阅读:百度大脑自研EdgeBoard桌面交互一体机

点击展开全文

腾佑AI(ai.tuidc.com) 成立于2007年,一直致力于发展互联网IDC数据中心业务、云计算业务、 CDN业务、互联网安全及企业客户技术解决方案等产品服务, 2018年成为百度云河南服务中心。主营服务器租用,服务器托管,虚拟主机, 域名注册,机柜租用,主机租用,主机托管,带宽租用,云主机,CDN加速 , WAF防火墙,网络安全,人脸识别,文字识别,图像识别,语音识别等业务;

售前咨询热线:400-996-8756

备案提交:0371-89913068

售后客服:0371-89913000

热门活动

腾佑智能建站
  • 热门资讯
  • 随便看看

联系方式

400-996-8756 点击这里给我发消息 AI@tuidc.com
腾佑AI人工智能

微信公众号

腾佑AI人工智能

手机站

COPYRIGHT 2007-2020 TUIDC ALL RIGHTS RESERVED 腾佑科技-百度AI人工智能_百度人脸识别_图像识别_语音识别提供商

地址:河南省郑州市姚砦路133号金成时代广场6号楼13层 I CP备案号:豫B2-20110005-1 公安备案号: 41010502003271

声明:本站发布的内容版权归郑州腾佑科技有限公司所有,本站部分素材来源于网络及网友投稿,若无意中侵犯了您的版权,请致电在线客服我们将在核实后予以删除!