9篇关于文字识别的计算机毕业论文

今天分享的是关于文字识别的9篇计算机毕业论文范文, 如果你的论文涉及到文字识别等主题,本文能够帮助到你

视觉图书盘点系统关键技术研究

这是一篇关于图书盘点,计算机视觉,书脊分割,文字识别,细粒度特征的论文, 主要内容为随着图书馆馆藏图书与读者规模越发庞大,智能化管理变得越来越重要。特别是在图书盘点任务中,越来越多的技术被应用其中以提高图书流转效率。近年来,得益于深度学习和计算机视觉技术的发展,基于视觉的图书盘点系统由于成本低廉的优势,受到不少研究人员的关注。但已有视觉方案大多假定书脊规整摆放,且并未考虑书脊损毁情况,导致实际应用时效果并不理想。本文针对视觉图书盘点系统中的关键技术展开研究,进一步提高了盘点系统的性能,具体研究内容如下:首先,书脊损毁或摆放不佳会严重影响后续的分割和识别,进而带来误报,故本文先在前端引入质量判定器,用于过滤书脊损毁或摆放不佳的图像,可有效降低误报率。针对现有分割方案无法有效分割密集倾斜书脊的现象,本文在原始Mask-RCNN模型基础上,引入带角度包围框和掩码评估器,得到一种改进模型Library Net,相比已有分割方案,可大幅提升密集倾斜书脊的分割性能。然后,针对现有方案无法有效检测书脊文字的现象,本文通过改进EAST模型,提出一种检测模型Spine OCR,实验表明其文字检测性能优于现有方案。针对书脊文字数据集短缺,导致文字识别准确率不高的现象,本文采用人工合成和爬取当当网图书封面的方式实现数据增广,并利用增广后的数据训练CRNN模型,在书脊文字识别准确率上有了较大提升。针对高度相似的系列图书,现有方案的特征检索准确率普遍不高的现象,本文参考已商用的人脸识别系统单样本学习的思路,提出基于Siamese和Triplet架构的特征抽取模型Spine Siamese和Spine Triplet,实验结果表明,其可以有效学习书脊细粒度特征,提升系列图书的检索准确率。最后,为了验证研究工作的有效性,本文通过整合市面上已有方案,开发了一套简易盘点系统,包括轮式机器人本体,后台系统和馆员客户端软件。该简易盘点系统集成了本文的所有研究成果,并在广东技术师范大学图书馆做了小范围测试。测试结果表明,本文研究成果具备较高的实用价值。

面向自然场景中商户门店名称识别的深度学习算法研究

这是一篇关于文本检测,文字识别,深度学习的论文, 主要内容为随着互联网技术的发展以及各种具备拍照功能的移动终端的普及,各种终端所拍摄到自然场景的图片往往包含一定的语义信息,因此自动检测和识别图片中的文字信息具有很广泛的应用场景,例如车牌识别、护照阅读器等等。随着电商的蓬勃发展,一些店铺想要与某些电商平台如美团、银联等登记入网的时候,需要店铺上传自己的门店照片信息供平台审核,而人工审核耗时费力,使用人工智能技术辅助可以提高工作效率降低错误率。但传统的OCR(Optical Character Recognition,光学字符识别)技术并无法解决复杂场景下的文字识别问题。自然场景中的文字识别算法基本分为两个步骤:文本检测和文字识别。目前基于深度学习的文本检测方法主要有两种,基于候选框或者基于分割的检测方法。基于候选框的基本思想一般是从图片中生成大量候选文本框,然后使用NMS(Non-Maximum Suppression,非极大值抑制算法)得到最终结果。基于分割的算法基本是通过对图片进行像素级的语义分割,然后在分割结果的基础上构建完整文本行。现有的模型对于英文字符的检测和识别都具有比较好的效果,因为英文字符尺寸基本一致,且只有26个,类别较少,但是汉字大小不一,且种类繁多,常用汉字个数就达到了 5000个,因此想要分类准确极其困难。针对自然场景中的门店名称复杂多变的特点,本文提出了一套针对此特定场景下的端对端文字识别与检测方案。整套方案由三个算法组成:基于像素语义分割模型PixelLink的文本检测算法,基于循环卷积神经网络的文本识别算法,以及基于音形码相似度计算的字符校正算法。针对中文和英文字符的差异性,我们训练了两套不同的模型来提高端到端识别的准确率。另外,针对字符校正模块,我们对核心算法进行了多层级的并行优化,提高了该算法的运行效率。我们在银联提供的自然场景文本数据集上进行了文本检测与文字识别实验,经过结果统计,在样本个数和标签个数为多对一的测试集上准确率可达76.6%,在一对一的测试集上准确率达到了51.7%。通过对算法输出的中间结果进行统计可以发现,我们提出的基于音形码的文本相似度计算算法对总体准确率有较大的提升效果,实验结果表明本文所提出的方案适用于解决自然场景中门店名称识别的问题。

基于云服务平台的数据知识资源管理系统的设计与开发

这是一篇关于资源管理,推荐算法,全文检索,文字识别,消息反馈的论文, 主要内容为当今时代,以信息技术为核心的数字化工作模式日益盛行,各企业单位也紧随潮流不断创新,而传统资源管理方式具有不便共享、不便查阅、不便管理及易丢失等问题,所以线上智能知识资源管理需求应运而生。本文设计的基于云服务平台的数据知识资源管理系统,不仅解决了传统方式存在的问题,而且保障了企业知识的内部共享,提供了一个便捷、有效的资源管理平台。本文主要研究内容分为资源推荐、搜索引擎实现、手写笔记识别以及同步消息反馈四个方面:(1)针对不便共享问题,本文将基于用户的协同过滤推荐算法和基于内容的推荐算法相结合,实现兴趣资源的推荐。先根据系统用户的日志记录和对应记录的关注度,计算用户可能感兴趣的资源信息,再结合基于内容的推荐算法,补全推荐。其中基于用户的协同过滤推荐算法采用皮尔逊(Pearson)相似度计算方法,使预测结果比传统计算方法更加准确,基于内容的推荐算法采用同类型资源相关度更高的推荐原则。采用上传资源占据资源关注度的方式,可有效解决“物品冷启动”问题。此外,根据基于流行度的推荐算法,提供热度资源推荐服务。(2)针对不便查阅问题,本文以系统知识资源为数据源,基于云服务平台实现搜索引擎。通过数据处理和分发系统Apache Ni Fi获取数据库资源信息及对应文档,转码后推送至云服务平台。在云平台利用搜索服务器Elasticsearch建立索引,配合文档抽取插件Ingest-Attachment实现文本预处理,并配合分词器IK Analyzer指定搜索字段的分词类型。使用汉语言处理(Han Language Processing,Han LP)包对用户输入的内容做去停用词处理,最终实现全文检索。(3)针对管理困难问题,本文加入手写笔记识别,以协助用户管理个人资源。本文采用了百度文字识别处理技术,其中,首先使用百度试卷与分析接口定位笔记图中的表格区域并裁剪保存,记录表格相关信息,之后使用百度手写文字识别接口识别笔记图并处理识别结果。当处理的结果信息在表格区域外时,直接将文字识别结果写入结果文档,在表格区域内时,使用百度表格文字识别接口识别表格并将识别结果写入文档。多图识别利用模板记录历史内容的方式实现,文档处理采用文档处理接口Apache POI实现。(4)针对管理者无法及时传达指令问题,本文采用通信协议WebSocket实现公告消息的实时提醒,即同步消息反馈,便于客户端和服务器之间的无障碍消息互传。使用心跳检测及重连机制可以确保客户端和服务器处于及时通信状态,能够将公告通知数据及时推送给在线用户。通过对以上重点内容的研究,本文实现了一个智能知识资源管理系统,可有效避免资源易丢失的问题。

基于深度学习的繁体中文图像文本化系统研究

这是一篇关于深度学习,卷积神经网络,文字识别,文字定位,图像处理的论文, 主要内容为为了更好的传播与保护古籍文献资料,将古籍文献以电子文本形式储存是一种有效的方式。古籍的数字文本化主要由古籍图像的文字定位和文字识别两部分组成。深度学习是时下热门的研究方向,在图像识别、目标检测及自然语言处理等领域效果显著。中文古籍中汉字字体繁多且印刷体与手写体混杂,印刷体字体各有差异,同时有较多干扰噪声点,总体在文字定位及识别的技术要求更高。本文为了减少繁体中文图像录入成电子文本的人力成本,以深度学习技术作为主要识别手段,配合人工纠正辅助录入作为核心的算法进行设计研究。以Web可视化页面降低用户使用门槛,实现一套算法完整、效果可行的繁体中文文本化系统。目前深度学习在简体中文图像文本化领域已有较成熟的应用,但是在繁体中文图像,尤其在中文古籍资料领域的应用较为缺失。因此,繁体中文图像文本化问题的研究对深度学习的应用、中文图像中文字定位识别的研究有很大意义。本文针对古籍图像文本化任务,进行了研究与实验,主要内容和创新有以下几方面:1.在没有现成数据集的条件下,设计了一种数据集标注算法,即先通过MSER算法初步定位文字位置,之后以人工纠正的方式获得最终文字位置信息数据集。结合深度学习的One-Stage目标检测算法,设计了对单张古籍图像的文字定位算法,以VGG16为主干卷积网络对不同层的特征图以Anchors+Bounding Boxes方法检测定位文字位置。比较了传统图像处理方法和深度学习方法在繁体中文文字定位中的性能差异。比较了深度学习方法对于不同字体文字,不同尺寸文字的性能差异。本文对不同算法在性能上产生差异的原因进行了概括分析。2.以卷积神经网络作为基础,同时结合Inception模块和残差神经网络模块,设计构建了针对繁体中文古籍图像的文字识别深度学习模型。通过L1,L2正则、数据增广、Dropout等正则化技术进一步提升了深度学习文字识别模型针对不同文字的泛化识别能力。比较了多种主流深度学习模型和本文文字识别深度学习模型对印刷体文字和真实古籍影印文字在识别效果上的差异。比较了本文设计的文字识别模型在不同结构变体上的性能差异。比较了不同正则化方法对模型性能的影响。3.将本文的文字定位算法和文字识别算法相结合,设计并实现了从图像到数字文本端到端的文本化算法。以该文本化算法作为核心,以SSM(Spring+SpringMVC+MyBatis)作为框架,实现了繁体中文图像文本化的Web系统。文本化系统不仅包含将古籍图像文本化的核心功能,同时设计了用户登录功能,用户数据存储功能,定位结果修正功能,识别结果修正功能,识别结果下载功能。

基于深度学习的繁体中文图像文本化系统研究

基于深度学习的蒙古文OCR系统的设计与实现

这是一篇关于蒙古文OCR,文字识别,文字检测,深度学习的论文, 主要内容为当今社会随着以人工智能为代表的智能化技术的不断深入发展,越来越多的企业与个人意识到人工智能带来的机遇与挑战。其中,OCR技术使用机器自动识别图像上的文字并用于后续的存储、传输、处理与应用,不仅能提高从图片中获取文字信息输入到计算机的效率,同时也在多媒体搜索、推荐、自动驾驶等技术中扮演着重要角色。随着深度学习技术的发展,OCR系统采用深度学习模型以后在准确率与稳定性上都得到了非常大的提升。目前针对中文、英文等大众语言的OCR技术研究与开发已经相对成熟,可以获得接近人类的识别能力,但是针对少数民族语言的OCR技术尚有很大的发展空间。本文主要研究针对蒙古文的OCR技术。本文通过系统调研蒙古文OCR领域的研究与应用,发现目前的蒙古文OCR系统只能处理相对简单场景下的文字识别任务,如只能处理没有背景干扰、少数字体的文字识别任务。而实际生活中,文字识别场景多样,图片可能包含背景图案、噪声、光照等,文字可能有多种字体、颜色、大小等。本文针对这一问题,首先进行了蒙古文OCR系统的需求分析。然后设计了系统前端与后端各个功能模块以及接口定义。然后研究与设计文字检测模型和文字识别模型两个OCR服务的核心算法模型,其中文字检测模型在基于语义分割的文字检测DB模型的基础上优化了特征融合模块;文字识别模型采用CRNN架构的序列到序列识别模型,主干网络在Mobilenetv2的基础上针对蒙古文特征进行了相应的结构调整。然后构建大量的合成数据集与少量人工标注数据集,并在其上训练与测试模型。最后实现了基于深度学习的蒙古文OCR系统。本系统主要特点有:系统算法方面基于深度学习技术,完全由数据驱动;系统可识别相对复杂场景下的OCR任务,如可识别多种字体、光照不均匀、有背景图案、模糊等情况下的文字。系统设计方面OCR系统的各个模块均采用微服务化设计,可以独立的扩容或缩容,可独立部署在多个不同的服务器和操作系统上。综上,本系统是一个跨平台、模块化、易于维护和管理、可适应不同规模业务量、可处理多种文字识别场景的准确高效的蒙古文OCR系统。

基于深度学习的中药药单文字识别研究

这是一篇关于中药药单,深度学习,文字检测,文字识别的论文, 主要内容为中医药学是中国古代科学的一项伟大创造,同时也是世界的瑰宝,中医药学为中华民族的生生不息奠定了基础,同时对全球的生命发展影响深远。党中央自十八大以来,不断提高中医药学的地位,为中医药学提供了良好的发展环境,也促进了中医药学的蓬勃发展。中药药单作为财富记录的载体,当下受限于数字化采集、文字识别等技术不够成熟,很多中药药单的记录无法留存。当下,深度学习、文字识别、AI等技术发展迅速,利用深度学习进行端到端的学习,提高文字识别的效率,对做好中药药单的信息化记录、留存提供了很好的技术支撑。本文深入研究了中药药单的文字数据处理、检测和识别,研究基于深度学习的中药药单文字识别,主要研究及创新点如下:(1)针对中药药单的图像特征,采用全卷积神经网络(FCN)的方式加强图像二值化的效果,采用基于BM3D降噪,引入维纳收缩,使得图像去噪的效果更佳。研究一种基于CTPN改进文本检测算法,使用Res Net50残差网络进行特征提取,有效提高了文字检测能力。在模型的池化层选择双线性池化模块,这一方式能够避免手写体和打印体混淆情况的发生,进一步提高文字检测的能力。(2)分析中药药单的文字书写特征,针对中药药单图像的文字特征,尤其是在识别生僻字、潦草字时,研究使用一种动态拆分与识别技术,更好地对检测到中药药单字符做拆分及合并。(3)提出一种神经网络文字识别模型,结合CNN与RNN两种神经网络,构建基于残差网络(Res Net)和双向长短时记忆循环神经网络的模型,提高针对中药药单文字识别的准确率。

医疗文档识别系统的设计与实现

这是一篇关于图像处理,医疗文档识别,文本检测,文字识别,OCR的论文, 主要内容为文档识别技术一直是文字处理和字符识别研究领域的热点研究问题,诸如卡证识别、发票识别等都得到了广泛的应用。但在医疗文档处理方面,相关的研究市场上还没有成熟的商业化产品。医疗文档是病患就医时常见的文档,作为证明病情、后续治疗的证明材料。由于不同医院的医疗文档的信息格式不尽相同,导致医疗文档资源的综合利用非常困难,难以实现在医院之间的共享。设计并实现了一套医疗文档识别系统,该系统能够识别非结构化的医疗文档资料,如病历图像资料,并将其转化成为结构化信息,为医疗文档的存档和共享提供帮助。该系统由图像预处理、文本检测及文字识别、文档管理等功能模块组成。由于采集的医疗文档资料的图像具有噪点、光照不均匀、空间视域不正等情况,可使用二值化、文档空间视域矫正、非均匀光照矫正等图像预处理的技术提高图像的质量。系统采用可微二值化算法定位图像中的文本所在的区域,采用RCNN模型从文本区域中提取文字序列,实现文本检测和文字识别等文档识别功能。系统同时提供交互式的图像文字提取功能,以解决图像文字自动提取时信息结构化的逻辑问题。系统采用B/S设计架构进行设计,使用My SQL数据库保存结构化的数据,提供基于UI的交互操作功能。该系统可以独立使用,也可以作为API,提供给其他相关的系统调用。通过系统测试,测试结果表明,该系统运行稳定,能够准确地提取医疗文档图像中的结构化信息,能满足用户实际需求。