腾佑旗下产品:
智能五合一建站 咨询热线:400-996-8756
绑定享折扣 注册百度云
百度人脸识别
人脸识别 文字识别 图像识别 语音识别
  • 最新资讯
  • 热门资讯
  • 最热资讯
人工智能http://ai.tuidc.com/templets/default/img/advertising_space_right_3.jpg

百度大脑EasyData上线文本数据清洗功能

发布时间:2021-02-19 09:52 作者:腾佑科技-AI编辑

简述:今天给大家带来的是百度大脑EasyData上线文本数据清洗功能,下面我一起来看具体详情!

  今天给大家带来的是百度大脑EasyData上线文本数据清洗功能,下面我一起来看具体详情!
  我们采集或导出的原始文本数据中,通常包含着大量无关的emoji和url信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。
  为了满足此类需求,EasyData近期推出文本数据清洗功能,可以通过平台提供的数据清洗功能对文本数据集进行清洗。
  当文本数据中存在emoji表情、无用url数据时,您可以使用数据清洗的功能进行去除。
  文本数据清洗另外提供了繁体字转简体字功能,通常情况下在使用简体字可以取得更好的模型效果。可以使用该功能将文本数据中的繁体字转为简体字。
  需要注意的是,文本数据清洗功能仅支持未标注数据的清洗。具体如何使用,可以参考以下步骤使用文本数据清洗功能。
  如何使用文本数据清洗功能
 
百度大脑EasyData上线文本数据清洗功能
 
  1、创建清洗任务
  进入EasyData后台,点击左侧导航栏中的【清洗任务管理】,可进入清洗任务管理页面,点击【新建清洗任务】即可跳转到创建页面,清洗方式选择【文本数据清洗】。
 
百度大脑EasyData上线文本数据清洗功能
 
  2、选择数据集版本
  为保证清洗任务顺利进行:当您的清洗前后数据集版本为两个数据集时,清洗前后两个数据集版本均会为您保留;
  在清洗前选择数据集及版本号,在清洗后选择与清洗前相同的数据集,在版本号的地方新建版本号并选中。在选择数据集版本时您需要注意以下几点:
  清洗前的数据集需为非空且未标注的数据集;
  目前本系统不支持清洗前后的数据集版本相同;您可以新建清洗后的数据集版本;
  清洗后数据集版本标注信息需与清洗前保持一致,即清洗前后的数据集名称相同。
 
百度大脑EasyData上线文本数据清洗功能
 
  3、选择数据集清洗方式
  文本数据的清洗方式目前仅支持通用清洗方案,共有三种,根据清洗文本数据的需要,可同时选择1到多种清洗方式(最多可添加3种清洗方式),下面我们来分别对三种清洗方式进行具体介绍。
  1,去掉清洗前文本中的表情等符号
 
百度大脑EasyData上线文本数据清洗功能
 
  2,去除文本数据中的网页链接
 
百度大脑EasyData上线文本数据清洗功能
 
  3,繁体转简体:指将文本中繁体字转为简体字(通常情况下在使用简体字可以取得更好的模型效果)
 
百度大脑EasyData上线文本数据清洗功能
 
  在完成以上步骤后,点击提交,即可完成清洗任务的创建,并可返回清洗任务管理页面对清洗任务进行管理。
 
百度大脑EasyData上线文本数据清洗功能
 
  关于EasyData
  EasyData是百度大脑推出的智能数据服务平台,为具有AI开发需求的企业及个人开发者提供一站式数据处理服务。针对AI开发过程中的数据采集、数据标注、数据清洗等环节提供了软硬一体的自动化数据采集方案、智能标注、定制化清洗等领先能力。同时EasyData已全面内置在EasyDL零门槛AI开发平台和BML全功能AI开发平台中,可以将EasyData处理的数据应用于EasyDL、BML的模型训练。
  立即体验
  EasyData智能数据服务平台:https://ai.baidu.com/easydata/
  EasyDL零门槛AI开发平台:https://ai.baidu.com/easydl/
  BML全功能AI开发平台:https://ai.baidu.com/bml/
  更多百度大脑EasyData相关内容,腾佑AI人工智能持续分享中!
  推荐阅读:百度AI智能工厂解决方案
点击展开全文

腾佑AI(ai.tuidc.com) 成立于2007年,一直致力于发展互联网IDC数据中心业务、云计算业务、 CDN业务、互联网安全及企业客户技术解决方案等产品服务, 2018年成为百度云河南服务中心。主营服务器租用,服务器托管,虚拟主机, 域名注册,机柜租用,主机租用,主机托管,带宽租用,云主机,CDN加速 , WAF防火墙,网络安全,人脸识别,文字识别,图像识别,语音识别等业务;

售前咨询热线:400-996-8756

备案提交:0371-89913068

售后客服:0371-89913000

热门活动

腾佑智能建站
  • 热门资讯
  • 随便看看

联系方式

400-996-8756 点击这里给我发消息 AI@tuidc.com
腾佑AI人工智能

微信公众号

腾佑AI人工智能

手机站

COPYRIGHT 2007-2020 TUIDC ALL RIGHTS RESERVED 腾佑科技-百度AI人工智能_百度人脸识别_图像识别_语音识别提供商

地址:河南省郑州市姚砦路133号金成时代广场6号楼13层 备案号: 豫B2-20110005-1

声明:本站发布的内容版权归郑州腾佑科技有限公司所有,本站部分素材来源于网络及网友投稿,若无意中侵犯了您的版权,请致电在线客服我们将在核实后予以删除!