医疗文档识别系统的设计与实现
这是一篇关于图像处理,医疗文档识别,文本检测,文字识别,OCR的论文, 主要内容为文档识别技术一直是文字处理和字符识别研究领域的热点研究问题,诸如卡证识别、发票识别等都得到了广泛的应用。但在医疗文档处理方面,相关的研究市场上还没有成熟的商业化产品。医疗文档是病患就医时常见的文档,作为证明病情、后续治疗的证明材料。由于不同医院的医疗文档的信息格式不尽相同,导致医疗文档资源的综合利用非常困难,难以实现在医院之间的共享。设计并实现了一套医疗文档识别系统,该系统能够识别非结构化的医疗文档资料,如病历图像资料,并将其转化成为结构化信息,为医疗文档的存档和共享提供帮助。该系统由图像预处理、文本检测及文字识别、文档管理等功能模块组成。由于采集的医疗文档资料的图像具有噪点、光照不均匀、空间视域不正等情况,可使用二值化、文档空间视域矫正、非均匀光照矫正等图像预处理的技术提高图像的质量。系统采用可微二值化算法定位图像中的文本所在的区域,采用RCNN模型从文本区域中提取文字序列,实现文本检测和文字识别等文档识别功能。系统同时提供交互式的图像文字提取功能,以解决图像文字自动提取时信息结构化的逻辑问题。系统采用B/S设计架构进行设计,使用My SQL数据库保存结构化的数据,提供基于UI的交互操作功能。该系统可以独立使用,也可以作为API,提供给其他相关的系统调用。通过系统测试,测试结果表明,该系统运行稳定,能够准确地提取医疗文档图像中的结构化信息,能满足用户实际需求。
基于PSENet和CRNN的自然场景文本检测识别研究
这是一篇关于深度学习,文本检测,PSENet,文本识别,CRNN的论文, 主要内容为近年来,随着互联网的发展和手机的普及,人们逐渐习惯于从现实生活的场景中获取图片并进行分享。文字作为信息表达的重要载体,有时只需要了解图片中的文字,就能对整张图片的内容有大概的认识。因此,如何从自然场景的图片中准确地提取出文字信息逐渐引起了学术界的关注。目前,基于深度学习的文本识别方法在文字行形状较规则(如矩形、四边形)的场景中已经取得较好的性能,但由于目标的表达方式较为单一,再加上模型的感受野范围有限,对于文本形状不规则或分布密集的场景,检测识别性能仍有提升的空间。针对上述问题,本文在PSENEt文本检测网络和CRNN模型的基础进行改进,具体的研究与贡献可总结为:1、对Pse Net文本检测网络进行改进。针对卷积网络感受野有限而导致大文本实例区域检测不全的问题,在特征提取网络Res Net50的结构中集成Res2Net模块,通过调整尺度维数的取值,使模型获取不同尺度的感受野,更好地提取不规则文本的特征。对于文本分布密集使检测结果出现黏连的情况,通过GCN模块调整特征融合网络的结构,使其近似于全卷积网络,从而避免丢失位置信息;另外,BR模块可对文本区域的边界进行精修,以更好的实现文本和背景以及文本之间相分离的目标。对于损失函数,考虑到后处理算法的特点,为使预测结果彼此分隔且更接近各相应文本区域的完整形状,增加具有最大最小尺度文本内核损失项的系数权重。在实验部分,本文提出的改进方法在通用文本检测数据集SCUT-CTW1500、ICDAR2015以及Total-Text上皆取得了超过原始算法的检测性能。2、文本识别部分在CRNN的基础上进行优化改进。为了更好地提取文本区域的空间特征,结合文本形状多近似矩形的特点,在CNN部分,调整卷积核和池化形状的同时集成Res2Net模块;将空间特征转化为特征向量后,考虑到文本上下文之间的语义信息,在RNN部分选择使用三层双向长短时记忆网络提取语义特征,以更好的对文本进行识别;得到的输出经过全连接层和softmax层后,结合CTC机制处理识别中重复字符和空字符的问题,并对文本信息进行预测。通过对比实验和结果分析,本文提出的文本识别方法对于识别性能有一定的提升作用。
面向自然场景中商户门店名称识别的深度学习算法研究
这是一篇关于文本检测,文字识别,深度学习的论文, 主要内容为随着互联网技术的发展以及各种具备拍照功能的移动终端的普及,各种终端所拍摄到自然场景的图片往往包含一定的语义信息,因此自动检测和识别图片中的文字信息具有很广泛的应用场景,例如车牌识别、护照阅读器等等。随着电商的蓬勃发展,一些店铺想要与某些电商平台如美团、银联等登记入网的时候,需要店铺上传自己的门店照片信息供平台审核,而人工审核耗时费力,使用人工智能技术辅助可以提高工作效率降低错误率。但传统的OCR(Optical Character Recognition,光学字符识别)技术并无法解决复杂场景下的文字识别问题。自然场景中的文字识别算法基本分为两个步骤:文本检测和文字识别。目前基于深度学习的文本检测方法主要有两种,基于候选框或者基于分割的检测方法。基于候选框的基本思想一般是从图片中生成大量候选文本框,然后使用NMS(Non-Maximum Suppression,非极大值抑制算法)得到最终结果。基于分割的算法基本是通过对图片进行像素级的语义分割,然后在分割结果的基础上构建完整文本行。现有的模型对于英文字符的检测和识别都具有比较好的效果,因为英文字符尺寸基本一致,且只有26个,类别较少,但是汉字大小不一,且种类繁多,常用汉字个数就达到了 5000个,因此想要分类准确极其困难。针对自然场景中的门店名称复杂多变的特点,本文提出了一套针对此特定场景下的端对端文字识别与检测方案。整套方案由三个算法组成:基于像素语义分割模型PixelLink的文本检测算法,基于循环卷积神经网络的文本识别算法,以及基于音形码相似度计算的字符校正算法。针对中文和英文字符的差异性,我们训练了两套不同的模型来提高端到端识别的准确率。另外,针对字符校正模块,我们对核心算法进行了多层级的并行优化,提高了该算法的运行效率。我们在银联提供的自然场景文本数据集上进行了文本检测与文字识别实验,经过结果统计,在样本个数和标签个数为多对一的测试集上准确率可达76.6%,在一对一的测试集上准确率达到了51.7%。通过对算法输出的中间结果进行统计可以发现,我们提出的基于音形码的文本相似度计算算法对总体准确率有较大的提升效果,实验结果表明本文所提出的方案适用于解决自然场景中门店名称识别的问题。
基于智能批阅的教学助手平台的设计与实现
这是一篇关于智能批阅,文本检测,文本识别,DBNet,CRNN的论文, 主要内容为在线作业批阅系统是为班级学生和任课教师提供服务的一种教学网络平台,任课教师利用此网络平台布置作业,系统将作业分发给指定班级或学生。教师可以获取作业的统计情况,选择已提交作业进行批阅,并反馈信息给学生。学生将账号与班级进行绑定,在线获取所有的课程作业,提交作业的同时由系统对作业状态进行更新,有效避免遗漏作业,实现作业的交互处理。本教学助手平台以Web端作为后台管理系统,采用微服务架构和Vue.js框架进行开发,管理教育局、学校、班级、师生及应用信息,并显性控制企业微信小程序和微信小程序的使用及停用;企业微信作为教师的工作平台,主要功能包括作业布置、作业详情、作业统计和作业批阅等;微信小程序作为家长及学生的学习平台,主要功能包括作业列表、作业完成和作业墙等;后端采用Spring Boot框架,数据库采用My SQL、Redis和Mongo DB以实现整个系统的大数据存储和实时云计算的需求,致力于为师生提供完善的在线作业全场景解决方案。本教学助手平台为教师提供数学速算智能批阅服务,该服务主要包含三个模块,分别是文本检测、文本识别和计算推演。该服务的文本检测模块采用基于分割算法的DBNet,在网络结构中加入CBAM注意力机制模块,提高各个特征在通道和空间上的联系,更有利于提取目标的有效特征;该服务的文本识别模块采用CRNN和CTC框架,针对小学作业扭曲字体的场景,在其中加入STN(空间转换网络)处理扭曲字符,并使用Bi LSTM和改进的En CTC模型,以提升网络的识别能力;该服务的计算推演模块设计并实现了一个自定义字符串计算器,对文本识别阶段识别的计算题文本进行计算,验证计算结果的正确性。该数学速算智能批阅服务可以对作业进行自动识别和判分,批改精准度达到98%。
基于智能批阅的教学助手平台的设计与实现
这是一篇关于智能批阅,文本检测,文本识别,DBNet,CRNN的论文, 主要内容为在线作业批阅系统是为班级学生和任课教师提供服务的一种教学网络平台,任课教师利用此网络平台布置作业,系统将作业分发给指定班级或学生。教师可以获取作业的统计情况,选择已提交作业进行批阅,并反馈信息给学生。学生将账号与班级进行绑定,在线获取所有的课程作业,提交作业的同时由系统对作业状态进行更新,有效避免遗漏作业,实现作业的交互处理。本教学助手平台以Web端作为后台管理系统,采用微服务架构和Vue.js框架进行开发,管理教育局、学校、班级、师生及应用信息,并显性控制企业微信小程序和微信小程序的使用及停用;企业微信作为教师的工作平台,主要功能包括作业布置、作业详情、作业统计和作业批阅等;微信小程序作为家长及学生的学习平台,主要功能包括作业列表、作业完成和作业墙等;后端采用Spring Boot框架,数据库采用My SQL、Redis和Mongo DB以实现整个系统的大数据存储和实时云计算的需求,致力于为师生提供完善的在线作业全场景解决方案。本教学助手平台为教师提供数学速算智能批阅服务,该服务主要包含三个模块,分别是文本检测、文本识别和计算推演。该服务的文本检测模块采用基于分割算法的DBNet,在网络结构中加入CBAM注意力机制模块,提高各个特征在通道和空间上的联系,更有利于提取目标的有效特征;该服务的文本识别模块采用CRNN和CTC框架,针对小学作业扭曲字体的场景,在其中加入STN(空间转换网络)处理扭曲字符,并使用Bi LSTM和改进的En CTC模型,以提升网络的识别能力;该服务的计算推演模块设计并实现了一个自定义字符串计算器,对文本识别阶段识别的计算题文本进行计算,验证计算结果的正确性。该数学速算智能批阅服务可以对作业进行自动识别和判分,批改精准度达到98%。
基于AC自动机的抗干扰不良文本检测系统设计与实现
这是一篇关于文本检测,AC自动机,中文相似性,抗干扰检测的论文, 主要内容为随着信息通讯技术的发展和智能手机的普及,通过网络渠道获取和发布信息逐渐成为了我国民众日常生活的一部分。互联网上每天都会产生大量的文本信息供人们阅读,在传递有效信息的同时,也混杂了许多包含色情、谩骂、暴力反动、赌博诈骗等不良内容的文本。不良文本会干扰网络秩序,危害社会环境,对人民群众——尤其是青少年——产生不良影响。国家和各大平台都十分重视网络环境的治理,鼓励推进审查机制,但仍有不法分子为逃避审查,通过汉字拆分、同音字替换、形近字替换等主动干扰行为,把原不良文本“伪装”成正常文本再发布,给平台、社会带来损害。由于网民群体的低龄化、网络语境的个性化,上述主动干扰现象广泛存在于当前互联网文本中,导致目前的检测方法已经无法满足网络平台的现实需求。本文旨在通过改进现有的文本检测方法,使其能够处理不良文本中的干扰情况。本文首先对已有的不良文本检测方法、主流的检测系统进行了分析、归纳、总结,着重介绍了国内外在抗干扰文本检测方面已取得的工作成果及适用场景。接着,在文本检测层面,对研究涉及的主要理论与技术进行了大致介绍,理论上主要分析了含干扰不良文本的类型特征以及汉字音形码概念,技术上主要介绍了AC自动机算法及文本分类方法;在系统层面,针对不良文本主要特点,先对目标系统的功能性需求和非功能性需求进行了分析,设计了系统的整体架构和各个功能模块,再展开介绍了系统核心的抗干扰文本检测模块中的各个子模块。在设计核心模块时,针对各类干扰项的特点设计了相应的处理策略,引入汉字音形码和嫌疑数组改进了AC自动机的算法流程,通过横向对比实验确定了最适合用作文本检测子模块的分类模型,与抗干扰子模块相结合,在匹配出干扰项的同时考虑了语义特征,通过对比实验证明了和现有文本检测系统相比,该方案在准确率上和召回率上的表现均有提高。在具体实现过程中,采用Vue.js框架和Django框架进行前后端分离式开发,采用MySQL+Redis的数据存储方案,配合Celery异步任务队列提高系统处理高并发请求的能力,开发完成后,在Nginx服务器集群上部署系统并实现负载均衡,并对系统进行了测试,测试结果表明了系统能够满足需求。文章最后进行了工作总结,并提出了系统后续改进的方向。
面向自然场景中商户门店名称识别的深度学习算法研究
这是一篇关于文本检测,文字识别,深度学习的论文, 主要内容为随着互联网技术的发展以及各种具备拍照功能的移动终端的普及,各种终端所拍摄到自然场景的图片往往包含一定的语义信息,因此自动检测和识别图片中的文字信息具有很广泛的应用场景,例如车牌识别、护照阅读器等等。随着电商的蓬勃发展,一些店铺想要与某些电商平台如美团、银联等登记入网的时候,需要店铺上传自己的门店照片信息供平台审核,而人工审核耗时费力,使用人工智能技术辅助可以提高工作效率降低错误率。但传统的OCR(Optical Character Recognition,光学字符识别)技术并无法解决复杂场景下的文字识别问题。自然场景中的文字识别算法基本分为两个步骤:文本检测和文字识别。目前基于深度学习的文本检测方法主要有两种,基于候选框或者基于分割的检测方法。基于候选框的基本思想一般是从图片中生成大量候选文本框,然后使用NMS(Non-Maximum Suppression,非极大值抑制算法)得到最终结果。基于分割的算法基本是通过对图片进行像素级的语义分割,然后在分割结果的基础上构建完整文本行。现有的模型对于英文字符的检测和识别都具有比较好的效果,因为英文字符尺寸基本一致,且只有26个,类别较少,但是汉字大小不一,且种类繁多,常用汉字个数就达到了 5000个,因此想要分类准确极其困难。针对自然场景中的门店名称复杂多变的特点,本文提出了一套针对此特定场景下的端对端文字识别与检测方案。整套方案由三个算法组成:基于像素语义分割模型PixelLink的文本检测算法,基于循环卷积神经网络的文本识别算法,以及基于音形码相似度计算的字符校正算法。针对中文和英文字符的差异性,我们训练了两套不同的模型来提高端到端识别的准确率。另外,针对字符校正模块,我们对核心算法进行了多层级的并行优化,提高了该算法的运行效率。我们在银联提供的自然场景文本数据集上进行了文本检测与文字识别实验,经过结果统计,在样本个数和标签个数为多对一的测试集上准确率可达76.6%,在一对一的测试集上准确率达到了51.7%。通过对算法输出的中间结果进行统计可以发现,我们提出的基于音形码的文本相似度计算算法对总体准确率有较大的提升效果,实验结果表明本文所提出的方案适用于解决自然场景中门店名称识别的问题。
面向废弃药品逆向物流的文本检测与识别算法研究
这是一篇关于废弃药品,逆向物流,深度学习,文本检测,文本识别的论文, 主要内容为新冠疫情的爆发与蔓延使得医药领域成为社会关注的第一热点,伴随而至的,是数量远超以往的废弃药品的产生,如何合理规范的处置废弃药品也成为了众多学者研究的话题。近年来,随着逆向物流概念的产生并在各个领域得到有效实施,构建医疗废弃物逆向物流网络也是各国非常重视的领域。在实际生活中,废弃药品因其化学成分的特殊性,简单的堆放运输会对环境产生影响,且想要对有残余价值的药物实现逆向物流,需要确保废弃药品信息的可溯性,而想要实现废弃药品逆向物流的第一步,是对废弃药品包装文字信息进行准确定位与识别。但生活中我们常见到的废弃药品外包装并非完好,纸盒弯曲、破损甚至外包装遗失的情况屡见不鲜,显然类似情况对常规的文本检测与识别算法都是不小的挑战。针对以上情况,本文引入了相应的曲面文本检测算法与识别算法,并在此基础上根据实际生活进行相应改善适配。根据实地采集到的废弃药品包装图片分析得知,多数废弃药品包装信息呈曲面特征,常规文本算法很难识别准确,针对这一现实情况,在文本检测部分,本文引入表现较好的PSENet网络来实现文本检测的任务。同时为了使网络模型轻量化,更加适用于资源有限的手持设备,本文将特征提取网络由Res Net改为轻量级网络Mobile Net V3,实验结果表明,在保证文本检测准确度的前提下,可以大大降低了原算法的性能消耗。在文本识别部分。本文采用了较为典型的CRNN+CTC模型,在场景文字识别中表现一直很优异,同时,基于部分场景下,如固定科室使用的药品种类固定、药物名称相似,本文提出基于词典转录的方式,并在最终实验中采取有词典与无词典两种转录方式相结合,经过最后的实证分析得出:基于词典的转录改进对文本识别的速度与准确度均有不同程度的提升。本文指出了传统OCR技术的短板,并针对废弃药品曲面文本这一特点,引入相应的基于深度学习的检测与识别算法模型,实现废弃药品逆向物流中信息读取的关键一步。
基于智能批阅的教学助手平台的设计与实现
这是一篇关于智能批阅,文本检测,文本识别,DBNet,CRNN的论文, 主要内容为在线作业批阅系统是为班级学生和任课教师提供服务的一种教学网络平台,任课教师利用此网络平台布置作业,系统将作业分发给指定班级或学生。教师可以获取作业的统计情况,选择已提交作业进行批阅,并反馈信息给学生。学生将账号与班级进行绑定,在线获取所有的课程作业,提交作业的同时由系统对作业状态进行更新,有效避免遗漏作业,实现作业的交互处理。本教学助手平台以Web端作为后台管理系统,采用微服务架构和Vue.js框架进行开发,管理教育局、学校、班级、师生及应用信息,并显性控制企业微信小程序和微信小程序的使用及停用;企业微信作为教师的工作平台,主要功能包括作业布置、作业详情、作业统计和作业批阅等;微信小程序作为家长及学生的学习平台,主要功能包括作业列表、作业完成和作业墙等;后端采用Spring Boot框架,数据库采用My SQL、Redis和Mongo DB以实现整个系统的大数据存储和实时云计算的需求,致力于为师生提供完善的在线作业全场景解决方案。本教学助手平台为教师提供数学速算智能批阅服务,该服务主要包含三个模块,分别是文本检测、文本识别和计算推演。该服务的文本检测模块采用基于分割算法的DBNet,在网络结构中加入CBAM注意力机制模块,提高各个特征在通道和空间上的联系,更有利于提取目标的有效特征;该服务的文本识别模块采用CRNN和CTC框架,针对小学作业扭曲字体的场景,在其中加入STN(空间转换网络)处理扭曲字符,并使用Bi LSTM和改进的En CTC模型,以提升网络的识别能力;该服务的计算推演模块设计并实现了一个自定义字符串计算器,对文本识别阶段识别的计算题文本进行计算,验证计算结果的正确性。该数学速算智能批阅服务可以对作业进行自动识别和判分,批改精准度达到98%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设向导 ,原文地址:https://m.bishedaima.com/lunwen/47976.html