今天给大家带来的是百度飞桨发布全新推理部署导航图-打通AI应用最后一公里相关内容,百度飞桨经过不断的迭代升个级,在5月20日的Wave Summit深度学习开发者峰会上再次发布全新的推理部署导航图,下面我们来看具体详情!
5月20日下午,Wave Summit 2021在北京正式举行。在活动中,百度发布了飞桨九大最新发布和全平台升级,这些新技术和工具来自百度源于产业实践的技术、与开发者共生的开源生态,它们正推动着产业智能化加速到来。
王海峰在Wave Summit2021上做开场致辞
飞桨带来的九大新发布其中包含6项技术产品,以及3个生态成果和计划。除了为飞桨加入一系列新功能之外,百度还展示了自己在AI领域的最新研究成果。
这其中包括:
飞桨开源框架2.1版、云原生机器学习核心PaddleFlow、全新推理部署导航图、全新大规模图检索引擎、开源文心ERNIE四大预训练模型、硬件生态大范围覆盖、飞桨「大航海」计划等等。
作为「人工智能时代的操作系统」,飞桨连接了智能芯片的算力与大量基础应用,让最先进AI算法的大规模应用成为可能。
飞桨框架2.1:开发体验太妙了
借助飞桨,数百万开发者已不再需要从头开始编写AI算法的代码,即可高效进行技术创新并应用于业务。机器学习门槛的大幅降低,加快了人工智能应用的多样化和规模化。在这背后,百度的AI技术经历了长时间的发展。
百度早在2013年就成立了深度学习研究院,2016年8月,它率先开源了深度学习框架PaddlePaddle(飞桨),打造了中国首个自主研发、功能完备、开源开放的产业级深度学习平台。随着这一体系的不断改进,飞桨吸引了数百万开发者。
今年3月,飞桨迎来了发展历程中的一个里程碑:2.0正式版的发布。对于飞桨平台来说,这是一次向智能化「基础设施」进化的全面换代。除了成熟的动态图模式,其在API系统、大规模模型训练、软硬件一体化等方面均有大量革新。
5月20日的Wave Summit上,飞桨开源框架正式升级到2.1版本。百度深度学习技术平台部高级总监马艳军带来了关于飞桨开源的最新进展和发布。
飞桨技术升级
飞桨新版本首先提升的是训练速度。飞桨开源框架V2.1着重优化了自动混合精度训练,最大化地使用FP16计算,减少与FP32的转换开销,并使用了多种策略自动保证模型正常收敛。此外,飞桨开源框架V2.1还优化了大量FP16算子的性能,在多个领域的主流模型上都有明显的性能提升。
以ResNet50和BERT为例,启动自动混合精度功能后,模型的训练速度可以提升3倍,与同类系统相比处于领先水平(超过了PyTorch和TensorFlow)。
其次,飞桨框架2.1版本的动态图功能进一步增强,新增了inplace操作功能,实现了自动显存复用,可将显存占用降低17.7%。此外还优化了Python/C++交互的开销,提升即时执行效率,使得训练速度提升11%。
在飞桨框架2.0版本正式推出的高层API,这一次也进行了升级,增强了数据预处理类API,扩展了基于GPU设备的计算能力,此外在全流程训练上增加了混合精度策略支持。2.1版本还新增了模型共享机制,高层API可以直接调用飞桨官方算法库中的经典的、复用性高的模型。
同时,飞桨开源框架V2.1对自定义算子功能的易用性进行了大量优化,降低开发者自定义算子(op)的学习与开发成本。现在的算子封装更加简洁,隐藏了不必要的框架底层概念,同时彻底打通了训练和推理。通过封装Python端扩展API,实现了一键完成自定义算子编译、安装与接口自动生成,有效降低了开发者编写和使用自定义算子的成本,让开发者更加专注于算子计算的本质。
「在新版本中,就可以像调用飞桨API一样调用自己写的自定义算子了。」马艳军说道。
模型部署,全面增强
在大会中,百度还分享了飞桨推理部署工具链的最新升级。至今,模型部署仍是AI产业实践中的难题,推理部署工具链条是否通畅,一定程度上决定了AI应用最后一公里路走得好不好。
飞桨模型压缩工具PaddleSlim有两项重要升级。首先是优化了剪枝压缩技术,新增了非结构化稀疏工具。早期剪枝使用结构化稀疏的方式,剪枝时以某个结构为单元,这样虽然可以直接减小Tensor的尺寸和计算量,但一些有价值的网络结构会被「误伤」。而非结构化稀疏则是以每一个数值为单元进行剪枝,更加精确、灵活,通用性、易用性也都非常好。
此外,PaddleSlim率先支持了OFA(Once For All)压缩模式,结合多种压缩策略的优势来保障压缩后模型的精度;接口简洁对用户代码低侵入,让用户无需修改现有的模型训练代码。这种方法的可移植性较好,训练一个超网络就可以得到多个适配不同部署环境的子模型,只需对模型微调即可。
借助OFA策略,BERT模型体积减小了26%,CPU、GPU实现明显加速。综合使用PaddleSlim的压缩策略,CycleGAN体积减小97%,CPU、GPU均有大幅加速。
飞桨的轻量化推理引擎Paddle Lite也进行了全面升级。近日,百度发布了面向移动开发者的开箱即用工具集LiteKit,针对移动端开发的特点对Paddle Lite进行了封装,显著降低了端侧AI开发者的开发成本。此外,Paddle Lite在ARM CPU和OpenCL的推理性能也进一步提升,尤其在广泛应用的INT8性能持续保持领先。硬件支持方面,Paddle Lite与包括瑞芯微、Intel FPGA开发套件在内的硬件的进一步融合适配,满足了更多应用场景的需要。
针对服务化部署的实际需求,Paddle Serving新增了全异步设计的Pipeline模式,以更好支持现实业务中模型组合使用的问题。多模型应用设计复杂,为了降低开发和维护难度,同时保证服务的可用性,人们通常会采用串行或简单的并行方式,但这种情况下吞吐量仅能达到一般可用状态,且GPU利用率普遍偏低。Paddle Serving的升级很好地解决了这个问题。
右图是在PaddleOCR上的测试数据。可以看到,随着用户访问数量的增加,非Pipeline模式无论是吞吐量或GPU利用率都很快达到了瓶颈,而Pipeline模式依然稳步提升,可有效支持企业的大规模部署需求。
飞桨前端推理引擎Paddle.js也获得了进一步增强。升级后的Paddle.js保持高兼容性,完整支持了飞桨框架2.0及之后版本的模型格式,新增了对多种Backend和主流图像分割及分类模型的支持,在高兼容性的同时同时也兼顾了高性能。新增的WebGL Pack功能则可以实现数据四通道排布并行计算,减少资源占用。
另外,Paddle.JS还推出了前端模型加密解决方案,在模型文件离线加密、访问受控、运行推理受控三个重要环节加强保障,有效提高业务的安全性。
飞桨推理部署工具链上的技术升级完成之后,为了让开发者能够快速将想法投入实践,了解「哪条路走得通,哪条路还未走通」,百度将自身AI技术实践的经验做成了一张推理部署导航图供人参考:
据介绍,这其中已经涵盖了300多条经过充分验证的部署通路,未来还会增加更多路径。
云原生机器学习核心PaddleFlow
除了性能增强和改进,百度本次还宣布机器学习核心PaddleFlow开放邀测。PaddleFlow是首个为专为AI平台开发者提供的云原生机器学习核心系统,人们可以基于它开发出更多细分场景和深度定制的AI平台。
根据百度AI产品研发部总监忻舟介绍,PaddleFlow具有三层结构,为开发者提供了资源调度、作业执行与服务部署等AI开发平台核心能力,以及友好的开发接口。
在资源调度层,PaddleFlow带有AI平台运行所需的存储,及计算资源的统一接入/调度。支持高性能的AI异构计算资源管理,并提供灵活丰富的资源调度策略,包括拓扑感知、超发抢占、GPU虚拟化等。它支持常见的各种存储系统的统一对接,还提供了高性能存储中间件来加速AI计算时数据访问的效率。
在作业执行和服务部署层,提供了AI平台核心关键能力,从作业调度、工作流调度,到模型的管理以及预测服务的管理,并支持包括飞桨在内的深度学习框架以及算法库,以及常见的Spark、MPI等计算类型。
在用户接入层,PaddleFlow提供易被集成的REST API、命令行客户端等多种形式,还提供了多租户和基本的认证授权机制,另外对平台管理员支持简单的管理操作,包括任务查看、资源管控等。
百度表示,这一工具性能优异,支持数万算力卡调度、数千并发作业数的大规模并行训练的能力。同时,PaddleFlow也非常轻量和易于应用,可以实现一键部署安装。针对市场上大多数实际应用条件是单机的情况,PaddleFlow还对单机部署做了大量优化。
在AI领域最热方向,提出更强技术
飞桨框架2.1版中还有几个值得关注的重要新技术。
万亿规模图检索引擎
图神经网络是最近AI领域的热门方向,随着大规模图学习在知识图谱和搜索推荐领域的广泛应用,大规模图模型训练愈加受到重视。飞桨提供了从分布式数据处理、图检索、前向反向图模型计算、多server参数更新的全流程通用分布式能力,形成了大规模图模型训练架构。
对于图检索环节,5月20日,百度正式发布了大规模图检索引擎,将图的邻接表通过双层哈希切分方式存放到不同graphserver上,worker端请求graphserver通过图检索引擎获得子图进行训练。经过Intel CPU环境上实测,该引擎不仅支持万亿边图模型训练,也能够很好地支持线性扩展。
据介绍,这项技术已在网易云音乐的主播推荐场景上进行了应用:大规模图检索引擎和飞桨分布式训练技术,成功支撑了语音主播业务的十亿级边的图模型训练。通过知识迁移,现在推荐系统可以有效解决冷启动问题,提高推荐场景中的有效播放率。
文心ERNIE开源四大预训练模型
百度也在不断推动着NLP模型技术研究层面的创新。这一次,文心ERNIE语义理解开发套件全新开源发布了4大预训练模型:分别是多粒度语言知识增强模型ERNIE-Gram、超长文本理解模型ERNIE-Doc、融合场景图知识的跨模态理解模型ERNIE-ViL和语言与视觉一体的模型ERNIE-UNIMO。
知识与深度学习相结合实现的语义理解,不仅仅能理解语言,还可以理解图像,实现统一的跨模态语义理解。
其中,ERNIE-Gram提出了显式的n-gram掩码语言模型,通过引入多粒度语言知识增强预训练模型效果,在5项典型中文文本任务效果显著超越业界开源的预训练模型。
ERNIE-Doc针对篇章长文本建模不充分问题,提出回顾式建模技术和增强记忆模型机制,在13项长文本理解任务上取得了领先效果。
ERNIE-ViL针对跨模态理解难题,基于知识增强思想,实现了融合场景知识的跨模态预训练,在5项跨模态理解任务上取得效果领先。
ERNIE-UNIMO进一步增强不同模态间的知识融合,通过跨模态对比学习,同时提升跨模态语义理解与生成、文本理解与生成的效果,在13项跨模态和文本任务上实现了测试成绩的领先。
打造最强AI算力
强大的AI平台不仅需要软件和算法,也需要AI芯片的算力,百度飞桨正在与各家芯片厂商进行适配,同时也在研究下一代计算机架构。
硬件生态成果:飞桨硬件生态路线图
去年,百度在Wave Summit峰会上正式发布了飞桨硬件生态伙伴圈,如今已有超过20家芯片、服务器、ISV领导厂商相继加入,已适配的芯片或IP达到了31款,全面地覆盖了国内外知名硬件厂商。
螺旋桨和量桨的升级
在2020年12月的Wave Summit+峰会上,百度正式发布了生物计算平台「PaddleHelix螺旋桨」。飞桨也开启了与生物计算的「跨界」之旅。
目前,螺旋桨PaddleHelix已经升级到了1.0正式版本,新增了化合物预训练模型ChemRL。而且ChemRL模型已经应用到了ADMET、虚拟筛选等下游任务:今年3月,在国际权威的图神经网络基准OGB的HIV和PCBA两个药物相关的数据集上,ChemRL获得双冠军。百度也正式开源了PaddleHelix(https://github.com/PaddlePaddle/PaddleHelix),供更多开发者探索使用。
经历了一年的发展,在2020年5月发布的国内首个量子机器学习开发工具「量桨」获得了又一次升级。量桨与飞桨框架2.0及其之后的版本同步更新,整体运行速度得到了大幅提升,在核心应用场景平均提升达到21.9%,最高提升达到40.5%。
其整体功能也得到了进一步加强,适配了近期量子设备,新增量子核方法等特征提取方式。对于难度很大的纠缠提纯任务,量桨新增了最优化量子纠缠处理框架,给出了目前业界最优且可实施的提纯方案。
EasyDL和BML双平台:全面升级
面对各个行业面临的众多场景需求,飞桨企业版采用AI开发双平台的形式——EasyDL零门槛AI开发平台和BML全功能AI开发平台,让不够精通人工智能算法的企业开发者能够像使用家电一样简单的用起AI,更多的专注于业务场景和创新。另一方面,AI技术专家也可以更高效地开发出全新技术,并快速进行部署。
这一次,EasyDL和BML同时迎来了多项升级。
EasyDL在数据处理、训练与评估、模型部署及性能优化方面做了200多项自动化机制,并基于近期开发者需求的分析,对场景适配优化和模型评估与诊断做了重点优化。EasyDL的宗旨成为一个提供自动化建模的平台,通过对各个核心环节的技术创新,实现端到端全流程的自动化,让开发者在极简的用户体验下获得高精度的模型效果。
相对EasyDL的零门槛自动化机制,BML则提供了更多开发模式,让开发者针对不同的场景灵活把握更多环节。比如Notebook建模、可视化拖拽建模、预置模型开发和Pipeline建模等。
「我们将飞桨中优秀的开发套件,例如ERNIE、PaddleOCR,以及机器学习的算法以及AutoDl、VisualDL等工具组件,结合产业最佳实践,优选出67套模型和网络的组合,预置在我们的平台里面,加速开发,大约可以节省80%的开发时间。」忻舟说道。
此外,来自成都国铁等企业的嘉宾也现场分享了基于飞桨实现的产业应用实践。
在交通运输领域,成都国铁已构建起可以全方位、多维度、高频次实现对高速铁路供电设备实施数字化检测/监测的自动化系统。它可以对动车、高铁实现实时的运营检查,又被迁移至深圳地铁的部分线路。利用嵌入式设备的轻量级算力,初步处理过的数据通过4G/5G网络传输到服务器端进行二次检测。边云一体的解决方案,使得地铁车辆可以在正常运行的时间进行检测,减少了地铁检修人员熬夜巡检的次数。
15个亿,10万家企业,超百万人才
在去年的WAVE SUMMIT+2020深度学习开发者峰会上,百度发布了飞桨「大航海」启航计划,围绕高校人才培养,未来三年,投入总价值5亿元的资金与资源,支持全国500所高校,重点培训5000位高校AI师资,联合培养50万学子。
这一路线,要贯彻到底。在昨天的活动中,百度宣布投入更多资金——「大航海」护航计划,以及「大航海」领航计划正式启动。
「大航海」护航计划指的是百度将在未来三年投入10亿元资金,从技术赋能、人才赋能、生态赋能全方位支持10万家企业智能化升级,与产业界一起培养百万AI人才。
「大航海」领航计划面向核心开发者,百度将与社区开发者一起共建开源生态,携手探索AI前沿技术领域。据了解,目前已认证120位PPDE(飞桨开发者技术专家),飞桨城市/高校领航团达到150个。
去年启动的「大航海」启航计划,如今在阶段性成果之上带来了新发布:《AI人才产教融合培养方案》,致力于构建全面实用的高校AI人才培养方案,包括AI Studio教学平台、免费算力、产业级案例和数据集、专项合作等。
此外,百度还在活动中举行了「百度奖学金」的颁奖,飞桨和清华大学、吉林大学、郑州大学三大高校创新创业实验室现场签约,宣布在课程共建、赛事合作、人才、产学结合等方面展开合作,共同推进产学研用一体化发展。
如今,我们正处于以人工智能为核心驱动力量的第四次工业革命浪潮之中,如何推动人工智能进入工业大生产阶段,成为多方思考的关键命题。如何把AI技术的价值带入到企业的生产活动当中,是否存在一条可以参考、可以实践的路径?
百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜认为,这条路可以分为三个阶段,第一阶段是企业中有少数先行人员尝试引入AI,称之为AI先行者探路阶段;当进行了验证后,会从个人实践转变成建设团队来学习和应用AI,称之为AI工作坊应用阶段;当企业逐渐进行大量的AI应用,几百、几千人一起工作,多人多任务协同生产,就进入了AI工业大生产阶段,更长期看,还会实现社会化协同生产。
如今人工智能技术在各行业不断渗透,面对不同的应用场景,开发者们提出了更多复杂的需求,持续降低门槛是AI工具重要的发展方向。
在解决如何让AI变得更简单这个问题上,飞桨从未停止进化:从核心框架、模型库,再到开发套件和工具组件、AI开发平台,飞桨在技术上不断突破,在功能上持续丰富,在服务上愈加完善,支撑起了越来越多创新和产业智能化的发展。
百度飞桨将在AI的工业大生产过程中成为至关重要的一环。
更多百度飞桨功能升级新品发布相关内容,百度云服务中心持续分享中!