近期全球权威咨询机构IDC发布调研报告显示,百度EasyDL再次取得亮眼成绩,继连续两年位列中国机器学习平台市场份额第一之后,今年上半年继续保持第一。
说起EasyDL,可能公众还有些陌生。因为它虽然在人工智能(AI)的圈子里大红大紫,在机器学习的细分赛道被奉为“神器”,但对于普通公众来说,认知度不算高。
1、EasyDL为什么持续霸榜
中国机器学习平台?
首先,要回答EasyDL为什么厉害,得先搞清楚它是个什么角色。
很多人把AI走进公众视野,归结为AlphaGo战胜人类棋手,这的确没错。但这也让很多人产生一种认知,就是AI是高不可攀的、是人类顶尖智慧的殿堂。
某种意义上这种看法也没错,即使在区区几年、十来年前,AI仍然是最聪明的一小群人能够使用的能力,因为它建造模型的过程非常的复杂。
而EasyDL就像希腊神话里的普罗米修斯,盗来了天火,让每个人都能拥有使用这种神奇能量的权利。
EasyDL,即Easy Deep Learning的缩写,简单来说,它是一个零门槛AI开发平台,其作用是让没有AI开发经验的人(并不仅仅是程序员)和有AI开发经验、但希望更轻松使用AI能力的人,都可以便捷的使用这个平台,开发出自己需要的AI应用。
接下来,再解释下什么是零门槛AI开发平台。
东濒大西洋、大部地区丘岗起伏的美国马萨诸塞州,世界学府哈佛大学和麻省理工学院都位于该州,而著名的全球性独立研究、数据和咨询服务公司Forrester,也发源于此。低代码/零代码开发平台(Low-Code Development Platform)的概念,就是由Forrester正式提出的。
Forrester敏锐的发现,在软件的开发过程中,有大量的时间成本都浪费在重复的功能编程上。于是,该机构在2014年首次提出低代码和零代码的概念——只需用很少甚至几乎不需要代码就可以快速开发出系统,并可以将其快速配置和部署的一种技术和工具。
看上去这是一个为"懒人"准备的技术,其实,它极大的降低的不仅仅是开发的时间,还因为可视化降低了不同需求方之间沟通的成本,所以一经问世就大红特红。
2021年初,海外研究机构Infolob表示,预计到2022年,低代码应用程序市场总规模达212亿美元;Gartner则预测,到2024年,应用软件开发活动中,65%将通过低代码方式完成。
在所有的编程工作中,为AI编写模型是一项难度极高的工作。因此,实现低代码化对于AI开发的意义并不止于降低成本,更大的意义在于,迅速地让许多没有AI开发能力的技术人员、甚至是非技术人员能够开发AI模型,迅速推广AI的应用。
然而,给AI准备低代码开发可不仅仅像普通编程那么简单。
AI的模型设计需要选择模型、超参数调整、训练、部署,还需要调度"云、管、边、端"各方资源,还要兼顾语音、图像等异构数据的处理交互,还要适应不同的部署条件,可想而知,AI的低代码化开发难度之大。
如果说普通编程的低代码化是让你用半成品做出一道红烧肉,那AI的低代码化就如同让你用半成品做出一道"佛跳墙"。在同等的操作难度下,AI的低代码化对后台的要求更高。
但这挡不住人们追求让AI应用开发加速进入产业界的决心,2013年低代码工具AutoWEKA发布,2014年的ICML(国际机器学习大会)开始举行AutoML研讨会(AutoML是自动机器学习的缩写,后文的AutoDL,即自动深度学习)研讨会,AutoML成为学术界的研究热点之一;2018年,谷歌将AutoML的概念产品化,引发产业界的全面关注。
然而,就在谷歌发布这一产品的前几个月,大洋彼岸的北京,百度于2017年11月发布了EasyDL,百度也因此成为国内乃至全球最早推出零门槛AI开发平台的公司。
其实,EasyDL的低门槛、易用性是构建于飞桨深度学习开源平台这个坚实的技术底座之上的。
如果你比较关心AI行业的动态,就会发现--在EasyDL取得市场份额第一的同期报告,IDC发布的2021年上半年深度学习框架平台市场份额报告还显示,百度在中国深度学习平台市场中的综合份额持续增长,跃居第一。
这可是一个非常非常了不起的行业大新闻,因为作为市场三强中唯一的国产深度学习平台,百度飞桨能够超越谷歌、Facebook,冲上中国深度学习平台市场综合份额的头位,真的是一个大突破。飞桨产业级深度学习平台逆袭,成为这个已经有高水平竞争的市场的中国第一。
而EasyDL的使命,就是最大限度的释放飞桨的产业级AI的能力,它的一切能力,也都是基于飞桨如何赋能于产业而构建的。
2、用AI创造AI的飞桨"精华版"
今年的博鳌亚洲论坛2021年年会分论坛上,百度CTO王海峰分享了一个重要观点,人工智能开始应用于各行各业的时候,不是每个行业都有足够多精通人工智能算法的专家。因此,我们需要有便捷易用的平台,能够让开发者专注于应用的开发,加速产业创新。如百度研发的飞桨平台,解决了基础的开发、训练、部署和模型库、开发套件等问题,并且开源开放,让开发者无需每一个人都从第一行算法代码写起,可以直接调用。
这里,王海峰说的是飞桨,也包括飞桨企业版EasyDL。
我们说过,一切深度学习平台的共性,都是为了降低开发的门槛,不需要开发者从复杂的神经网络开始编代码。
还是那个熟悉的例子:如果直接编写模型的高阶AI大师是用画笔描摹世界的画家,那用深度学习框架开发模型的就是高明的Photoshop达人,而EasyDL的用户,就是用美图秀秀却也能做出不俗效果,且操作极度简便的普通人。
某种意义上说,EasyDL其实可以看做是飞桨的"精华版"。
它的模型库,内置的模型是从飞桨的模型库中精选出来的;它的训练和推理过程,也是来自飞桨经验的升华;而EasyDL的底层,结合的是飞桨自研的AutoDL/AutoML技术,基于少量数据就能获得出色效果和性能的模型。
这也是我们为什么说,EasyDL的成功首先是因为飞桨的成功。
但是,EasyDL绝不是躺赢的"富二代"。飞桨是EasyDL成功的前提,但EasyDL的成功还是因为自己足够努力。这是因为,AutoDL理念的工程化,实在是一个难度很高的工作,EasyDL能做到今天的程度,是有飞桨开源底座的支撑再加上自己足够努力的结果。
EasyDL绝不是把模型开发的几个过程整合在一起,然后提供一些选项让开发者打几个勾那么简单,虽然从外在形式上来说,这么描述也没大错,但背后的工程化难度之高,是难以想象的。
简单的说,EasyDL(以及各类的AutoML/DL)的共同理念,就是"用AI技术来帮助人们设计AI"。
换句话说,开发一个AI模型的流程中,涉及的数据处理、特征提取、模型选择、参数调节、训练部署等环节,都利用AI能力才实现了高度的自动化,这才达到了使得EasyDL在构建深度学习模型的过程中,在很少人工干预的情况下,即可简单的被应用。
而且,简单不等于简陋,按照谷歌CEO的说法,谷歌AutoML创造模型的水准,至少相当于一个AI专业博士生的水平,而从某种意义上来说,EasyDL还要胜过于谷歌版的AutoML,因为EasyDL设计模型的水平,就像高级工程师,这个且在后面讲。
当我们打开EasyDL的界面时,的确给人的感觉就是极度简单,因为你所需要的模型分类已经非常详尽的开列了:
EasyDL上的模型类型
这后面的过程其实用几句话就可以讲完,在选择模型后,系统会要求你上传数据,过程不会比给一封电子邮件上传附件更复杂;此后,通过Auto Augment(自动数据增强)、Auto Finetuner(自动超参搜索)、NAS(自动网络架构搜索)等自动化建模技术,进行模型自动调优,大大降低模型调优的成本,一个新的模型就呼之欲出了。
EasyDL的价值,就在于用极简的交互体验与高度自动化的训练机制支持了整个AI开发全流程的运转,使AI开发可以全民化。
我们看几个关键点,比如数据是一切模型的基石,但数据的标注和清洗,是一个成本很高的工作,甚至还诞生了数据标注师这样的一个职业。
因此,EasyDL发布了EasyData智能数据服务平台,提供一站式的数据采集、数据清洗、数据标注、数据回流的完整解决方案,助力开发者高效获取AI开发所需的高质量数据。
也就是说,哪怕你的数据只是用普通手机拍摄的照片、或者用家用摄像头在低照度下拍摄的一段视频,就像一件脏兮兮且占满油渍的衣服,扔进这台自动的"洗衣机"里,最后输出的结果简直就像高级染烫店里精心干洗熨平过的一样。
接下来可能还要说到的是"调参",这是一个高难度、累死开发者的活儿,但也是模型打造的灵魂。
EasyDL实现的是自动调参,也就是说针对一个目标,自动调节超参数,这里的超参数包括batch_size、learning_rate等等。
这后面的技术太深,也无需展开。简单说,自动优化涉及的是一个应用数学的问题--就拿最近比较火的贝叶斯优化来说,所谓优化,实际上就是数学中一个求极值的过程,贝叶斯优化可通过一种名为「代理优化(surrogate optimization)」的方法,通过有限的采样数据点来解决这一问题。
可能看到这里你有点想撤退了,那我们讲故事来调剂一下。
举个例子,中国食品药品检定研究院希望做一个中草药识别的AI开发,这属于典型的定制化需求,一般来说,需求定制化越高,客户的标注数据就越有限,训练数据成本就越高。
而EasyDL的价值就在于,帮助客户通过较少的数据,快速获得可用且准确率较高的模型。
这种情况下,从头搭建模型不仅慢,也不符合客户的实际情况,EasyDL就会使用"迁移学习"这个概念。大家都知道,百度APP的"拍照识别植物"的功能是非常强大的,迁移学习可以把百度已经有的植物识别模型迁移到中草药识别当中去,把百度已经大规模标注的数据集用于预训练,这样就能把原本不可控的时间变成几分钟甚至更短,从而大大提高效率。
事实证明,这个模型的准确率>97%、训练耗时<10分钟、单图识别速度<50毫秒。
也许有人问,超高精度训练效果仅仅是靠迁移学习么?
也不尽然。
应该说,主要是靠百度的AI技术积累和业务实践,EasyDL里面的模型,是基于百度超大规模数据训练的预训练模型,包括超大规模视觉预训练模型,文本预训练模型文心ERNIE等等。
这就相当于用国宴厨师的经验来做一桌家常菜,属于典型的把高维技术下放使用,你用到的每一个模型、甚至是参数,都是百度十年千亿投资在AI上的技术外溢。
比如,青岛爱包花饰使用EasyDL替代X光和人力进行残留异物质检,训练时只采集了含有针、剪刀等异物和金属部件商品的X光图像,开发者在无需了解AI算法细节的前提下,就训练出了准确率90%的模型,箱包生产过程中残留异物的检出率和箱包的质检效率大大提高。
还有,厦门一家科技企业通过EasyDL打造出识别超过150种果蔬的识别模型,最终研发出果蔬识别智能秤。以往人工查询菜品图片需要2-3秒,而智能视觉秤只需0.2秒内,同时配合自动称重,整体效率提升超过10倍。
所以,EasyDL里的每一步,都充满了智慧,让AI创造AI,是EasyDL的灵魂。
也许你会问,相比于谷歌的AutoML,百度的EasyDL如何呢?
这里我们不比一些细节,而主要是看应用面。AutoML的特点是针对AI落地中的特定环节,而EasyDL的特点是真正解决AI落地的全流程实际问题,基于EasyDL训练完成的模型,可发布为公有云API、设备端SDK、私有服务器部署、软硬一体方案,灵活适配各种使用场景及运行环境。
也就是说,用户无需关注模型转换、适配加速、服务部署等细节,就能获得可直接运行、部署的镜像及可进行二次开发的SDK。
但是,这都不比不上本文开头时,我们说的实际的市场反馈更有说服力,在机器学习平台方面,百度EasyDL连续保持市场份额第一。而我们相信,只要飞桨一直保持现在的发展势头,EasyDL也有大概率持续霸榜。
3、有没有需求,都可以试试EasyDL!
这个问题你也许会觉得奇怪,难道不是为了开发AI应用而使用EasyDL么?
答案还真的不是如此,无论有没有确切需求,都可以尝试用用EasyDL。
为什么这么说呢,有这么几个理由:
1,EasyDL可以让每个人都零门槛的感受到AI的魅力。让每个人都觉得AI不是遥不可及的,而是触手可及、随时可用的。
2,EasyDL也许会让你得到极大的惊喜。
比如你是一个大型企业的运营人员,这样规模的企业早就实现了信息化甚至是数字化,服务器里积累的数据量,每2到3年时间就会成倍增长。
然而根据研究,虽然这些数据蕴含着巨大的商业价值,但企业所关注、能利用的通常只是占总数据量的2%~4%左右的显性数据,远远谈不上最大化地利用已存在的数据资源,而你完全可以利用这些庞大的数据,通过某种AI的形态进行数据的有效挖掘,最终可能会产生远超出你预期的结果。
3,EasyDL在解决实际问题方面,可以说已经大放异彩。限制你使用EasyDL的绝不是技术能力,而是你的想象力。
还记得前几年引发风投领域震动的"无人货架"大战么?这次大战的主要败局,其实就是因为当时根本没有一种实用程度可以进入商用领域的无人货架方案——RFID方式成本太高、重量传感方式不够精确,而纯视觉方案当时又不成熟。
通过对无人货架大战失败经验的总结,卓因达基于EasyDL开发了纯视觉方案的无人药柜,它们的数据比较丰富,120多种药品对应着9000多张图片,通过EasyDL中非常成熟的一个类目"物体检测",训练出了药品识别模型。
由于数据质量较高,模型准确度近100%,仅需500ms即可获得识别结果,进而可以实现C端自助选药、扫码购药,24小时不间断服务,随时满足用户应急购药需求。
如果这个技术在当年"无人货架"大战开始的时候就出现,完全可能开辟一个新的行业赛道,这也是百度信仰的--用科技让复杂的世界更简单。
EasyDL也正是在践行这样的愿景和能力--让AI开发不再是高级技术人员的专利,让不会代码的人也能拥有用技术改变世界的力量。
本文整理自"智东西"公众号