发布时间:2020-08-06 11:24 作者:未知
前面介绍了不少文字识别的相关产品和应用,今天腾佑AI人工智能给大家分享文字OCR识别发展史,下面来看相关内容:
什么是文字识别?
文字识别,又被称之为光学字符识别,英文全称是Optical Character Recognition(简称OCR),主要利用光学系统技术和计算机网络技术把印刷体或手写体文字内容进行数据的识别读取,转化成一个人和计算机都能够识读的格式。这是OCR技术比较重要的一环。
在OCR技术中,打印的文字识别是比较成熟的一个,由于其开始使用的时间早。欧美等过早在1929年就开始用来处理大量的报纸和杂志以及文件和声明等。文字识别技术经过40多年的发展和完善,已经较为成熟,信息处理的“电子化”已逐步实现。
而我国的印刷体汉字识别技术研究起步于20世纪70年代末,到今天已经有了30多年的历史,我们主要分为以下3个阶段
1、摸索阶段(1979-1985年)
自20世纪70年代末以来,以数字、英文和符号识别研究为基础,国内少数研究者对汉字识别方法进行了摸索,开发较少的模拟识别系统和软件,发表的论文也很少。该阶段研究成果很少且漫长,但为下一阶段的发展奠定了一定的基础。
2、研究开发阶段(1986-1988年)
汉字识别技术发展研究的高潮期是在1986年初到1988年底,也是印刷体汉字识别技术研究的丰收期。期间总共有11个单位组织进行了14次印刷体汉字识别成果分析鉴定,这个时间这些系统对样张识别都能达到较高指标,可以通过识别的字体有:宋体、仿宋体、黑体、楷体,识别的字数最多可达6763个,字号从3号到5号,识别率高达99.5%以上,识别处理速度在286微机控制条件下可达到10~14字/秒,但真实文本的识别率却比较低,主要原因是系统对印刷体文字不同形状发生变化(如文字运用模糊、笔划粘连、断笔、黑白不均、纸质质量差、油墨反透等等)的适应性和抗干扰性较差。但就文字识别在国内的发展来说,这三年文字识别系统的研究为印刷体汉字识别的落地使用打下了坚实的基础。
3、落地实用阶段(1989年至今)
自1986年印刷体汉字识别(文字识别)掀起高潮以来,清华大学学习电子工程系、中国社会科学院计算所智能服务中心、北京学生信息管理工程教育学院、沈阳自动化研究所等多家企业单位时间分别研制并开发出了实用化的印刷体汉字识别网络系统。而当前,印刷体汉字识别技术的研究热点已经从单纯的文字识别转移到了对表格的自动识别录入、名片识别、通用票据识别、图文混排及多语种混排分析、文档版面分析与识别等。随着技术的不断成熟,越来越多的文字OCR识别场景不断地的落地使用!