8篇关于分词的计算机毕业论文

今天分享的是关于分词的8篇计算机毕业论文范文, 如果你的论文涉及到分词等主题,本文能够帮助到你

老挝语分词和词性标注方法研究

这是一篇关于分词,最大长度匹配,隐马尔科夫,词性标注,半监督学习的论文, 主要内容为分词、词性标注工作是文本语义分析、机器翻译、自动问答、知识图谱等研究工作的重要支撑,主要应用于信息检索、文本处理、语料处理等众多自然语言处理领域。因此,实现分词和词性标注,是一项非常有意义的工作。作为低资源语言的老挝语,在分词和词性标注方面的研究颇少,而汉语、英语的研究比较丰富,比较成熟,但是由于语言上存在差异性,成熟的研究方法无法直接用于老挝语的分词、词性标注研究上。本文在老挝语资源较少的情况下,根据老挝语的构词特征及词语特征,对老挝语的分词和词性标注展开了相关研究,主要完成了以下工作：(1)分析老挝语的语言特点,包括构词特征、词语特征和语法特征等,分析并总结以上特点,将这些特点有效的融入到老挝语分词、词性标注工作中。(2)本文提出了基于音节的最大匹配老挝语分词方法。该方法通过对老挝语文本语料切分音节,再完成音节和词典的最长匹配,然后将得到的分词结果和错误词典进行匹配,通过错误词典纠正一部分错分的词语,最后利用人工制定的一些老挝语中字母、数字等的规则,对分词结果中相应的词串进行正则表达式匹配,校正错误的分词。通过以上方法实现了较高准确率的老挝语分词。(3)由于在词性标注方面,同样存在老挝语语料资源极少的现状,无法直接利用有监督学习的方法实现老挝语词法分析,本文提出了基于半监督学习的老挝语词性标注方法。利用少量的标注语料和未标注语料迭代训练一个隐马尔科夫模型,在标注的过程中,利用向前维特比算法和向后维特比算法对模型进行两次解码,两次结果一致则标注正确,否则利用词语共现规则进行再计算,并且结合一些老挝语中特殊字符规则对结果进行校正。同时通过计算词语相似度,提高对未登录词的标注能力。该方法在老挝语词性标注方面取得了较好的效果。

面向韩语的主题爬虫及韩语分词研究

这是一篇关于主题爬虫,分词,韩语,人工神经网络的论文, 主要内容为如今,互联网上的充斥着各种各样的资源,在网络中找到自己想要的信息变成了一件十分困难的事情,人们要花费大量的时间对网络上的信息进行过滤。通用搜索引擎虽然在一定程度上能够帮助人们检索信息,但是效果却不总是令人满意。于是出现了面向特定主题的专业搜索引擎,它能够为人们提供更加精确的服务,主题爬虫作为专业搜索引擎的重要组成部分,可以根据用户给定的主题,在网络上准确搜集到主题相关的信息。本文将主题爬虫技术应用到对朝鲜语/韩语网页的搜索工作,在对主题爬虫技术进行了简要介绍后,主要对韩语分词技术、主题预测、隧道穿越策略进行了研究,详细工作如下:第一,分词任务是自然语言处理的基础,中、日、韩等文字在进行各种任务时的首要任务就是分词。在韩语/朝鲜语分词方面,传统的基于匹配的分词方法,往往需要人工构建一个很大的词典,对不在词典中的词没有识别能力,分词精度不是很高。基于统计的分词方法通过对语料库中的字词关系进行学习,得到字之间的相互关系来进行分词,虽然能够对未登录词进行识别,但是在分词时没有充分利用字的语义信息,不能很好的对字的信息进行表示。本文将人工神经网络应用到韩语分词任务中,通过使用词向量技术,更好的对字信息进行表达,先后使用前馈神经网络、循环神经网络、循环神经网络与条件随机场结合的方法来构建韩语分词模型,在分词的准确度上得到了一定的提高,同时在分词时使用的字表示信息可以直接用于主题爬虫中的链接相关性预测。第二,对网页中链接的主题进行相关性预测是主题爬虫中不可或缺的部分,本文利用链接对应的锚文本信息来做主题相关性判断,构建了一个基于双向长短记忆单元的循环神经网络分类模型。由于锚文本的上下文信息具有迷惑性,所以本模型中利用了锚文本中的全部文本信息,排除上下文的干扰,同时循环神经网络在对字符序列信息进行建模时拥有一定的优势,借助双向的循环神经网络可以实现整个锚文本中的信息进行分析,对网页中的链接的主题相关性进行预测。第三,针对主题爬行中的隧道穿越技术,大多数方法都是设置一个深度阈值进行试探,方法不够灵活。本文利用网页中的信息来定义网页的温度值,结合牛顿冷却定律实现不同网页温度的动态调整,使爬虫尽可能的穿越不相关的网页到达主题相关页面,提高主题爬虫的获取能力。第四,本文将上述方法应用到主题爬虫中:利用神经网络分词方法来对网页内容进行分词;使用基于双向循环神经网络的锚文本判断方法来进行链接预测;结合内容与链接的主题预测值来得到网页的温度。结合主题爬虫的其他部分构建了一个主题爬虫系统,实验结果表明,本系统拥有较高的准确率。

教学网站智能答疑系统设计与实现

这是一篇关于教学网站,智能答疑,分词,语句相似度的论文, 主要内容为目前,网络教学的教学模式逐渐兴起。但是,在众多的网络教学课程中,主要存在两方面问题,其一,老师只是单一讲解,很难实现学生的个体化需求,对学生提出的问题不能一一解答;其二,教师可能在某一重复的问题上浪费了极多的时间来进行解答。所以,如果能有一款系统可以实现对单一学生提出问题自动解答,上面的问题就迎刃而解。本文结合教学网站的具体需求,提出了智能答疑系统的解决方案和开发了一套基于B/S架构的智能答疑系统。首先,本文详细研究了答疑系统的相关技术以及相应的理论,从而确定对答疑系统的功能需求;其次,分析并研究了目前的中文分词算法,并最后确定使用逆向最大匹配算法来实现系统的功能;然后,研究了语句相似度计算方法,语句相似度由词形相似度、语句长度相似度、词序相似度三个方面决定的。本系统根据这三个指标来对学生输入的问题进行语句相似度的匹配;最后,利用上述研究的内容,开发了一套基于Web界面,采用Java EE技术,Apache tomcat作为网站服务器,SQL Server 2012作为后台数据库的智能答疑系统。在尽可能低成本、高效率情况下,去满足教学网站智能答疑的业务需求。基于课程教学网站的智能答疑系统的研究目标在于方便学生学习,使学习者能够在教师不参与的前提下,利用智能答疑系统迅速准确的得到知识点的解答,从而最大程度的利用网络提升自学效率。同时,智能答疑系统直接替代了传统的教师人工对某一单一问题反复解答,极大的减轻了教师劳动强度。除此之外,智能答疑系统利用了大数据时代特点,对学生提出的问题加以归纳,重点、难点以数据化形式加以体现,在一定程度上提高了教师的课程教学质量。

教学网站智能答疑系统设计与实现

一种网络聊天机器人的研究与实现

这是一篇关于聊天机器人,服务匹配,REST,分词,微服务的论文, 主要内容为近年来,随着语音识别和自然语言处理技术的进步,聊天机器人(Chatbot)以其更友好体验被看成是人机交互的未来,市场上出现了大量的聊天机器人产品。然而,当前基于知识检索模型或生成模型的聊天机器人远没有达到期望的效果,甚至不实用。伴随着当前Web服务/APIs的大爆发,在这一背景下,本文提出了一种基于服务匹配的聊天机器人。该系统根据用户的输入,借助中文自然语言处理技术进行服务匹配,通过调用Web服务来响应用户意图。该系统可以解决知识检索模型维护知识库困难的问题以及生成模型很不成熟的问题,能给用户返回直接的和结构化的信息,在一定程度上使得聊天机器人可以代替现有APP。本文提出了聊天机器人服务匹配算法。通过中文分词、词性标注和命名实体识别等技术从用户输入的文本中提取关键词和命名实体,然后通过关键词搜索合适的API,根据API的信息,将提取的关键词和命名实体与API的调用参数匹配。本文采用CRF-BiLSTM模型进行中文分词,基于SIGHANBakeoff2005数据集对该模型分词效果进行了实验分析。结果证明较基于词典的机械分词方法MWSEG,CRF-BiLSTM的准确率、召回率和F值有接近10%的提升,达到了 Bakeoff 2005大赛Open组的最好水平。本文提出了适用于网络聊天机器人的RESTbot风格。RESTbot基于REST风格实现,针对网络聊天机器人的使用场景做了进一步的规范。聊天机器人调用RESTbot风格的Web服务无需人工编写格式转换代码,直接供前端使用,减少了重复的无意义的数据格式转换工作。然后本文针对RESTbot风格,提出了推荐的可视化方案。最后对RESTbot的可扩展性进行论述。最后,本文采用微服务架构实现了该网络聊天机器人系统。本文对网络聊天机器人系统的微服务架构、API网关、服务管理器和Web服务的实现细节进行了介绍。

一种网络聊天机器人的研究与实现

口腔种植医疗辅助系统的设计与实现

这是一篇关于口腔种植,Elasticsearch,基于案例的推理,病例,分词,词向量,VTK的论文, 主要内容为近年来,随着人口老龄化和消费不断升级,口腔种植牙的需求不断增长,越来越多的口腔医疗机构开设种植牙业务。口腔种植的技术难度大,对医生要求高,但缺少专门针对于种植领域的线上医疗学习和辅助诊断的系统平台。此外,在口腔种植领域也缺乏标准化的电子病历的采集、存储和分析工具。基于以上现状和某口腔种植医疗机构的实际需求,论文设计并实现了口腔种植医疗辅助系统。口腔种植医疗辅助系统基于Java Web技术搭建,以SSM框架为架构,采用My SQL数据库作为结构化存储工具。系统分为提供给临床医生使用的医生端和服务于医疗机构管理员使用的后台管理端。论文根据系统的实际功能需求,设计和实现了知识库搭建、知识检索学习、辅助诊断、图像浏览与操作、学习交流和个人中心等功能模块。论文的具体工作包括:(1)搭建知识库。通过数据爬取、数据清理、jieba中文分词、文本词向量等技术手段,实现了口腔种植相关知识数据的获取、清洗和词向量化。其中通过基于权值和分词的词句匹配算法来检测并删除冗余值和空缺值,通过Word2vec算法将病历的文本数据映射到向量空间。(2)知识检索学习。基于Elasticsearch实现检索功能,实现基于编辑距离算法的模糊检索,优化BM25算法的排序结果。(3)辅助诊断。根据问诊信息匹配治疗方案,运用余弦相似度的匹配算法更为精确的检索出匹配案例,并且基于医学专家设计的参数标准实现针对种植体的案例修正与学习。(4)图像浏览与操作。通过VTK与DCMTK等工具包,实现DICOM图像的读取、显示、三维重构、交互操作和距离测量等操作。(5)学习交流。提供在线视频观看与学习的功能和面向医生用户的交流社区,用户可以进行发布、删除、评论、收藏等交流活动。(6)个人中心。用户查看自己的反馈、收藏、病历等记录。口腔种植医疗辅助系统为临床医生提供在线学习平台和辅助诊断的工具,提高了治疗的有效性,也提高口腔医疗机构的日常工作效率。系统内部提供的专家指定的病历规范,为治疗规范化提供了有力保障。经实际运行,系统达到了预期目标。