基于深度学习的蒙古文OCR系统的设计与实现
这是一篇关于蒙古文OCR,文字识别,文字检测,深度学习的论文, 主要内容为当今社会随着以人工智能为代表的智能化技术的不断深入发展,越来越多的企业与个人意识到人工智能带来的机遇与挑战。其中,OCR技术使用机器自动识别图像上的文字并用于后续的存储、传输、处理与应用,不仅能提高从图片中获取文字信息输入到计算机的效率,同时也在多媒体搜索、推荐、自动驾驶等技术中扮演着重要角色。随着深度学习技术的发展,OCR系统采用深度学习模型以后在准确率与稳定性上都得到了非常大的提升。目前针对中文、英文等大众语言的OCR技术研究与开发已经相对成熟,可以获得接近人类的识别能力,但是针对少数民族语言的OCR技术尚有很大的发展空间。本文主要研究针对蒙古文的OCR技术。本文通过系统调研蒙古文OCR领域的研究与应用,发现目前的蒙古文OCR系统只能处理相对简单场景下的文字识别任务,如只能处理没有背景干扰、少数字体的文字识别任务。而实际生活中,文字识别场景多样,图片可能包含背景图案、噪声、光照等,文字可能有多种字体、颜色、大小等。本文针对这一问题,首先进行了蒙古文OCR系统的需求分析。然后设计了系统前端与后端各个功能模块以及接口定义。然后研究与设计文字检测模型和文字识别模型两个OCR服务的核心算法模型,其中文字检测模型在基于语义分割的文字检测DB模型的基础上优化了特征融合模块;文字识别模型采用CRNN架构的序列到序列识别模型,主干网络在Mobilenetv2的基础上针对蒙古文特征进行了相应的结构调整。然后构建大量的合成数据集与少量人工标注数据集,并在其上训练与测试模型。最后实现了基于深度学习的蒙古文OCR系统。本系统主要特点有:系统算法方面基于深度学习技术,完全由数据驱动;系统可识别相对复杂场景下的OCR任务,如可识别多种字体、光照不均匀、有背景图案、模糊等情况下的文字。系统设计方面OCR系统的各个模块均采用微服务化设计,可以独立的扩容或缩容,可独立部署在多个不同的服务器和操作系统上。综上,本系统是一个跨平台、模块化、易于维护和管理、可适应不同规模业务量、可处理多种文字识别场景的准确高效的蒙古文OCR系统。
基于深度学习的蒙古文OCR系统的设计与实现
这是一篇关于蒙古文OCR,文字识别,文字检测,深度学习的论文, 主要内容为当今社会随着以人工智能为代表的智能化技术的不断深入发展,越来越多的企业与个人意识到人工智能带来的机遇与挑战。其中,OCR技术使用机器自动识别图像上的文字并用于后续的存储、传输、处理与应用,不仅能提高从图片中获取文字信息输入到计算机的效率,同时也在多媒体搜索、推荐、自动驾驶等技术中扮演着重要角色。随着深度学习技术的发展,OCR系统采用深度学习模型以后在准确率与稳定性上都得到了非常大的提升。目前针对中文、英文等大众语言的OCR技术研究与开发已经相对成熟,可以获得接近人类的识别能力,但是针对少数民族语言的OCR技术尚有很大的发展空间。本文主要研究针对蒙古文的OCR技术。本文通过系统调研蒙古文OCR领域的研究与应用,发现目前的蒙古文OCR系统只能处理相对简单场景下的文字识别任务,如只能处理没有背景干扰、少数字体的文字识别任务。而实际生活中,文字识别场景多样,图片可能包含背景图案、噪声、光照等,文字可能有多种字体、颜色、大小等。本文针对这一问题,首先进行了蒙古文OCR系统的需求分析。然后设计了系统前端与后端各个功能模块以及接口定义。然后研究与设计文字检测模型和文字识别模型两个OCR服务的核心算法模型,其中文字检测模型在基于语义分割的文字检测DB模型的基础上优化了特征融合模块;文字识别模型采用CRNN架构的序列到序列识别模型,主干网络在Mobilenetv2的基础上针对蒙古文特征进行了相应的结构调整。然后构建大量的合成数据集与少量人工标注数据集,并在其上训练与测试模型。最后实现了基于深度学习的蒙古文OCR系统。本系统主要特点有:系统算法方面基于深度学习技术,完全由数据驱动;系统可识别相对复杂场景下的OCR任务,如可识别多种字体、光照不均匀、有背景图案、模糊等情况下的文字。系统设计方面OCR系统的各个模块均采用微服务化设计,可以独立的扩容或缩容,可独立部署在多个不同的服务器和操作系统上。综上,本系统是一个跨平台、模块化、易于维护和管理、可适应不同规模业务量、可处理多种文字识别场景的准确高效的蒙古文OCR系统。
基于深度学习的电商商品宣传图片文字识别研究
这是一篇关于文字检测,文字识别,Hy-CTPN,随机森林,Simi-DenseNet+CTC的论文, 主要内容为电商平台管理者需对商铺所售产品的海量商品图片进行信息抽取,进而实现风险管控,因此商品宣传图片文字识别是电商平台管理的技术关键。本文利用深度学习技术实现对电商商品宣传图片的文字检测与识别,为电商管理提供行之有效的技术支撑。主要研究内容如下:(1)针对CTPN(Connectionist Text Proposal Network)文字检测算法检测不同高度文字时易出现的检测框偏移问题,在CTPN的基础上,提出了融合文字高度特征的文字检测算法Hy-CTPN,该方法通过改善CTPN文字框合并机制,将文字高度信息加入文字检测框精修中。在ICDAR2013上的实验结果显示,Hy-CTPN算法的召回率为85%,F1-Measure为89%,检测时间为90ms,相比于原始CTPN,召回率提升了2%,F1-Measure提升了1%,算法平均预测时间缩短了50ms;在自制商品宣传图片检测数据集上HyCTPN也有较为优异的表现;(2)针对Hy-CTPN文字检测后出现的漏检问题,提出了一种基于卷积自动编码器特征的随机森林文字检测后验模型,该方法将深度学习中的卷积自编码特征与随机森林方法相结合。使用随机森林方法对卷积自编码特征进行融合投票,选择出最优特征区域。加入随机森林后验模型的Hy-CTPN文字检测准确率为94.9%,相比于CTPN,检测准确率提升了1.4%,相比于Hy-CTPN,检测准确率提升了1.3%;(3)针对文字检测后的文字倾斜导致文字识别准确率不高的问题,引入透视变换矫正算法;针对图像二值化算法的耗时过长问题,在Niblack算法的基础上,降低其算法时间复杂度,形成了OP-Niblack算法。最终形成了基于OP-Niblack的透视变换文字校正算法。该算法采用降低像素局部窗口计算方式的OP-Niblack算法进行二值化,采用梯度法与透视变换相结合的方法进行文字区域校正。对文字检测后的畸变图像进行校正实验,本文所提校正算法平均校正时间为1.18s,相比于近年来比较好的校正算法减少了90ms;对校正前识别准确率分别为(30%,50%),(50%,70%)的文本进行校正,校正后的平均识别准确率分别为81.7%,86.0%,加权平均识别准确率提高了1.13%;(4)针对DenseNet网络的训练过程中内存消耗过大与文字识别准确率较低问题,提出了一种基于特征图矩阵相似性DenseNet网络与CTC(Connectionist Temporal Classification)相结合的字符序列识别算法Simi-DenseNet+CTC。该方法通过结合矩阵相似性的Simi-DenseNet特征提取网络进行文字序列提取,使用CTC算法进行序列与标签的对齐。在自制商品宣传图片文字识别数据集上进行实验,准确率为86.1%,平均测试时间为0.18s,相比于DenseNet+CTC,准确率提高了0.8%,检测时间缩短了90ms,此外,在训练内存占用上,Simi-DenseNet+CTC有明显的降低。采用tensorflow框架、python语言对上述深度学习算法进行实现,并使用3个公共数据集与自制数据集进行实验验证。实验结果表明,所提算法不仅对自制商品宣传图片文字数据集有着很好的效果,在对公共数据集ICDAR2013、ICDAR2015、ICDAR2017数据集上也达到了不错的效果,具有非常好的研究与应用价值。
基于深度学习的OCR检测与识别技术研究
这是一篇关于特征提取,文字检测,文字识别,空间注意力机制,特征金字塔结构的论文, 主要内容为近年来,伴随着深度学习技术和神经网络的飞速发展,计算机视觉领域图像处理技术也取得了很大;进步,推动了许多国内外研究学者的科研成果进展。目前文字识别技术广泛应用于人机交互、工业自动化、车牌识别、银行、医疗等领域中,同时文字也是信息交流的一种重要渠道。传统的文字识别方法检测速度和精度上都存在很大问题,无法识别复杂场景下的文本信息,基于深度学习的方法可以解决这一问题。针对文字的字体多样、形状大小不一致、小文本数量较多等问题,本文提出了一种基于增强特征金字塔网络(Augment Feature Pyramid Network,A-FPN)和改进注意力机制模块IAM-Res Net网络结构的文字检测算法和CRNNs文字识别算法,并实现了一套基于深度学习的文字检测与识别系统。本文主要研究成果如下:(1)针对类文本像素误报和小尺度文本漏检问题,提出了A-FPN算法。该算法在特征金字塔网络(Feature Pyramid Network,FPN)的高层中连接了一个模块,充分利用了高层语义信息。针对文本定位信息粗糙问题,提出了IAMRes Net网络结构,该网络在Res Net50骨干网络中引入了卷积块注意力模块(Convolutional Block Attention Module,CBAM)增强文本特征信息的提取,提高上下文之间的文本信息流动。与现有的算法相比较,本文的算法在检测精度上有了较大提高,表现优异。(2)针对文字识别特征提取部分,本文提出了CRNNs文字识别算法。该算法采用双向的长短记忆网络(Bi-directional Long Short-Term Memory,Bi LSTM)将卷积特征生成文本序列特征,并在解码过程中,将转录层引入了注意力机制进行识别模型训练。由实验结果得出,改进算法在识别准确率上有了一些提高。(3)开发了一个OCR文字检测与识别系统。针对PC端系统的开发,将OCR文字检测与识别的功能整合到一起。该系统为用户提供了两种选择识别图像的方式,可以选取本地图像和截取屏幕中局部文本图像,输入图像后,将图像传到文字检测和文字识别模型中,并将检测与识别结果展示在系统界面中,用户可以对检测和识别的结果进行保存,方便后续查看和对文本识别内容进行修改。
基于深度学习的OCR检测与识别技术研究
这是一篇关于特征提取,文字检测,文字识别,空间注意力机制,特征金字塔结构的论文, 主要内容为近年来,伴随着深度学习技术和神经网络的飞速发展,计算机视觉领域图像处理技术也取得了很大;进步,推动了许多国内外研究学者的科研成果进展。目前文字识别技术广泛应用于人机交互、工业自动化、车牌识别、银行、医疗等领域中,同时文字也是信息交流的一种重要渠道。传统的文字识别方法检测速度和精度上都存在很大问题,无法识别复杂场景下的文本信息,基于深度学习的方法可以解决这一问题。针对文字的字体多样、形状大小不一致、小文本数量较多等问题,本文提出了一种基于增强特征金字塔网络(Augment Feature Pyramid Network,A-FPN)和改进注意力机制模块IAM-Res Net网络结构的文字检测算法和CRNNs文字识别算法,并实现了一套基于深度学习的文字检测与识别系统。本文主要研究成果如下:(1)针对类文本像素误报和小尺度文本漏检问题,提出了A-FPN算法。该算法在特征金字塔网络(Feature Pyramid Network,FPN)的高层中连接了一个模块,充分利用了高层语义信息。针对文本定位信息粗糙问题,提出了IAMRes Net网络结构,该网络在Res Net50骨干网络中引入了卷积块注意力模块(Convolutional Block Attention Module,CBAM)增强文本特征信息的提取,提高上下文之间的文本信息流动。与现有的算法相比较,本文的算法在检测精度上有了较大提高,表现优异。(2)针对文字识别特征提取部分,本文提出了CRNNs文字识别算法。该算法采用双向的长短记忆网络(Bi-directional Long Short-Term Memory,Bi LSTM)将卷积特征生成文本序列特征,并在解码过程中,将转录层引入了注意力机制进行识别模型训练。由实验结果得出,改进算法在识别准确率上有了一些提高。(3)开发了一个OCR文字检测与识别系统。针对PC端系统的开发,将OCR文字检测与识别的功能整合到一起。该系统为用户提供了两种选择识别图像的方式,可以选取本地图像和截取屏幕中局部文本图像,输入图像后,将图像传到文字检测和文字识别模型中,并将检测与识别结果展示在系统界面中,用户可以对检测和识别的结果进行保存,方便后续查看和对文本识别内容进行修改。
基于深度学习的中药药单文字识别研究
这是一篇关于中药药单,深度学习,文字检测,文字识别的论文, 主要内容为中医药学是中国古代科学的一项伟大创造,同时也是世界的瑰宝,中医药学为中华民族的生生不息奠定了基础,同时对全球的生命发展影响深远。党中央自十八大以来,不断提高中医药学的地位,为中医药学提供了良好的发展环境,也促进了中医药学的蓬勃发展。中药药单作为财富记录的载体,当下受限于数字化采集、文字识别等技术不够成熟,很多中药药单的记录无法留存。当下,深度学习、文字识别、AI等技术发展迅速,利用深度学习进行端到端的学习,提高文字识别的效率,对做好中药药单的信息化记录、留存提供了很好的技术支撑。本文深入研究了中药药单的文字数据处理、检测和识别,研究基于深度学习的中药药单文字识别,主要研究及创新点如下:(1)针对中药药单的图像特征,采用全卷积神经网络(FCN)的方式加强图像二值化的效果,采用基于BM3D降噪,引入维纳收缩,使得图像去噪的效果更佳。研究一种基于CTPN改进文本检测算法,使用Res Net50残差网络进行特征提取,有效提高了文字检测能力。在模型的池化层选择双线性池化模块,这一方式能够避免手写体和打印体混淆情况的发生,进一步提高文字检测的能力。(2)分析中药药单的文字书写特征,针对中药药单图像的文字特征,尤其是在识别生僻字、潦草字时,研究使用一种动态拆分与识别技术,更好地对检测到中药药单字符做拆分及合并。(3)提出一种神经网络文字识别模型,结合CNN与RNN两种神经网络,构建基于残差网络(Res Net)和双向长短时记忆循环神经网络的模型,提高针对中药药单文字识别的准确率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/lunwen/54531.html