8篇关于文本匹配的计算机毕业论文

今天分享的是关于文本匹配的8篇计算机毕业论文范文, 如果你的论文涉及到文本匹配等主题,本文能够帮助到你

科技人才推荐系统的设计与实现

这是一篇关于推荐系统,科技人才推荐,文本匹配,Django Web的论文, 主要内容为随着国家对教育事业的大力发展,我国人口的整体教育水平逐年提高,人才数量也呈现爆发式的增长。最近几年各城市的人才“争夺战”愈演愈烈,政府不惜动用各种政策吸引人才落户,吸纳更多的新生力量来建设城市。据人才发展研究报告显示,目前各个城市都建立了相应的人才库,整合了各个领域的人才信息。以重庆市为例,重庆市科技人才库目前收录了超过二十万位科技人才的相关信息,涵盖了现代农业、新材料、互联网、医药卫生等各学科领域。经过对重庆市科技人才库使用情况进行调研,发现该科技人才库并未被充分的开发使用,其主要表现有:(1)所有的科技人才信息只是作为数据静态地存储和展示,并没有得到充分的利用。(2)每个专业领域的科技人才数量众多,当企业寻找合适的科技人才进行合作时,存在选择困难的情况。为解决上述问题,本文基于重庆市自然科学基金重点项目“多源异构科技大数据整合与深度挖掘技术研究”,专注于科技人才和科技项目数据的研究与应用并完成了科技人才推荐系统。本系统旨在充分发挥科技人才的价值,针对需要科技人才的企业,根据其研究项目的相关信息为其推荐合适的科技人才。企业作为系统的用户,输入项目信息,系统便可进行科技人才推荐。本文主要工作如下:(1)数据收集与处理。本文的科技人才数据由基金项目的合作单位提供,针对项目信息数据不足的问题,从项目合作单位的网站获得项目标题、项目简介等信息,完成项目数据的收集。然后对已有的科技人才数据和收集到的科技项目数据进行数据预处理、标签标注和统计分析,从而构建历史数据对来解决系统冷启动问题。(2)科技人才推荐模型设计。采用改进的基于项目内容的推荐方法,在基于项目内容的推荐中使用到文本相似度计算模型,并结合文本分类网络对推荐结果进行校正,实现科技人才Top-6)推荐,完成科技人才推荐模型的设计。通过实验对模型的准确性和有效性进行验证,确保模型能够帮助用户解决科技人才筛选困难的问题。(3)系统设计与实现。结合用户需求完成系统需求分析,指导系统的设计与实现。系统采用B/S架构,通过使用Django Web、前端开发框架以及My SQL数据库等开发技术搭建了完整的科技人才推荐系统,实现了后台管理模块、科技人才推荐模块、科技人才查找模块等功能。最后完成了系统测试,验证了系统的有效性和稳定性。本系统在满足了相应功能的同时,提高了科技人才库的利用率,使得科技人才能够更好地发挥自己的价值。同时,该系统目前基于项目合作单位提供的部分数据实现,仍具有可扩展性,并且对其它城市发挥科技人才资源的价值有着较为重要的参考意义。

基于知识图谱与深度学习的问答系统算法研究与实现

这是一篇关于任务型对话系统,关系抽取,文本匹配,知识图谱,深度学习的论文, 主要内容为任务型问答系统目前在智能客服领域有着较为广泛的应用,例如电商助手、售后回访、电话推销等任务均可以使用问答系统来代替人类,以达到降低人工成本的目的。但在实际应用中,由于自然语言本身所具有的模糊性,很多问答系统中的信息抽取部分的准确度并不是十分理想,直接降低了问答系统的用户体验。而且目前大多数问答系统都是基于FAQ文档检索的模式所构建的,灵活性较差。针对以上两点局限性,本文搭建了一个基于知识图谱与预训练模型的任务型问答系统,并着重对其中的自然语言信息抽取部分以及语义匹配算法进行了研究与实现。本文的主要内容如下所示:(1)针对FAQ文档检索问答系统灵活性较差的问题,本文使用基于知识图谱的架构来提升问答系统中知识存储与查询的自由度,并在此基础上对知识图谱的架构进行改进,使其能更好的处理出现频率较低的问题。(2)针对目前问答系统中信息抽取的局限性,本文构建了一种融合了人工特征的管道式实体关系抽取模型,提升了管道式抽取方式的准确度,并且相较于联合抽取模型有着更好的鲁棒性。(3)针对本系统中答案的特殊形式,本文设计了一种基于预训练模型的交互式文本匹配算法来对候选答案进行排序,并在此基础上融合了实体关系信息,提升了答案排序算法的精确度。(4)基于以上内容,本文搭建了基于知识图谱与预训练模型的深度学习问答系统,完善了各个功能模块。该系统可以在限定域的条件下对用户问题进行灵活回应,兼具准确性以及鲁棒性,体现了以上几点研究在现实中的应用价值。

面向企业科技需求的科研团队匹配推荐研究与实现

这是一篇关于企业科技需求,深度学习,文本分类,相似度计算,文本匹配,科研团队推荐的论文, 主要内容为我国中小企业数量庞大,涉及的科技行业方方面面,是国家经济行业发展的基石。但是目前在中小企业中普遍存在一些问题,例如高质量的科技型人才稀缺,创新能力不够等。在高校中,许多科研团队的优秀研究成果投入实际应用的案例并不多,没有对社会进步产生可观的推动作用。中小企业与高校科研团队之间信息严重不对称,创新链与产业链的对接进展情况并不理想。针对上述现象,本文构建企业科技需求的行业分类模型和科研团队的推荐模型,以完成面向企业科技需求的科研团队推荐目标。首先,本文通过结合注意力机制的循环卷积网络模型完成企业科技需求的行业分类,以缩小企业科技需求与科研团队研究方向进行文本匹配的科技范围;然后,在融合文本多层次特征的条件下,构建企业科技需求文本与科研团队研究方向文本的匹配模型,提取相似度结果TOPK,完成科研团队的推荐。最后,设计并完成面向企业科技需求的科研团队推荐系统,为企业推荐适合的科研团队,以此克服企业所发布需求中面临的技术障碍。本文的主要工作如下:(1)基于RCNN＿ATT的企业科技需求文本分类。大数据时代下,中小企业科技需求文本信息错综复杂,科技难题的区分、挖掘与管理工作愈发艰巨。在分析传统机器学习方法构造企业科技需求的文本分类器方法后,考虑采用深度学习的方法完成企业科技需求的文本分类任务,将注意力机制加入循环卷积神经网络中,本文提出基于RCNN＿ATT的企业科技需求文本分类模型,使科技需求文本可以根据所属行业完成自动化归类。该方法在国内四个在线企业需求发布平台的文本数据集上进行实验,并与现有经典的神经网络模型相比较,最终表明本文模型的分类性能更佳,可以缩小科技文本的匹配范围,提高匹配计算效率。(2)基于多特征融合与文本匹配的科研团队推荐。针对企业科技需求文本中存在信息冗杂,特征稀疏的问题,本文将多个层次的文本特征加以融合,进而构建针对本课题研究的文本匹配模型。以企业科技需求文本表征科技问题,以科研团队研究方向文本作为科技资源供给方,计算科技需求和研究方向之间的文本匹配相似度,并基于内容的推荐方法得到科研团队TOPK,为中小企业自动推荐科研团队,以满足其个性化需求。经实验证明,相比于单一特征的文本匹配模型,该模型拥有更加优越的推荐性能。(3)面向企业科技需求的科研团队推荐系统的设计与实现。平台采用基于PHP的B/S架构,分析了推荐系统的整体框架和模块构成,并设计系统中科研团队推荐的处理流程,将系统划分为企业管理、科研团队管理、项目管理和用户交流等主要功能模块。平台通过对用户发布的企业科技需求文本和科研团队研究方向文本进行分析和处理,最终推荐出符合企业需求的科研团队。

科技人才推荐系统的设计与实现

深度文本匹配与排序的研究与实现

这是一篇关于深度学习,自然语言处理,文本匹配,注意力机制的论文, 主要内容为随着互联网的飞速发展,世界每天都产生约1.68亿张CD的信息量,信息的总存储量呈爆炸式增长。各大开放式搜索引擎,各专业领域、信息管理系统的快速搜索功能,都是为了帮助用户实现文本信息的快速匹配与召回。合理、高效的匹配与排序算法正是文本匹配的关键所在。文本匹配是自然语言处理领域中的一个核心且常见的问题,许多自然语言处理任务,例如问答系统、对话系统、以及部分推荐系统等,最终都能够抽象为文本匹配问题。在文本匹配任务中,注意力机制是当前使用最广泛的方法,现有的注意力机制存在两方面问题,一方面,传统注意力机制更注重提取词语间的相互关系,忽略了部分词语本身的特征,特征挖掘不够充分,因此模型性能会受到限制。另一方面,现存的注意力计算方法种类繁多,应用模型复杂度普遍偏高。若特征选择不合理,或特征融合方法不恰当,模型效果不增反降。因此,本文提出了一种新的词语注意力机制,并设计了一种新颖的分层特征融合模型。首先,本文针对词语自身特征设计了一种新的注意力机制——词语注意力机制。词语注意力机制在进行特征增强时,只考虑词语本身内在的含义及隐藏特征,是一种真正着眼于挖掘词语自身特征的方法,可以增强词语本身的隐含含义,从单个词语级别提取更独特的特征,从而得到蕴含信息更全面的新的文本表达。该方法计算复杂度低,计算资源消耗较少。其次,随着特征提取及增强方法变多,本文提出了一种新颖的分层注意力特征融合应用模型,根据注意力机制对文本信息的处理粒度(词级、句级)分类,分层次有针对性的将多种注意力机制加入到文本匹配模型中。经过多层注意力机制信息提取及增强后,区别地利用各层级信息,分层建模、合理融合,在语句层面最大程度避免信息损失,综合提升了匹配与排序模型的性能。该模型在多个权威数据集上的实验结果均达到了当前领域顶尖水平。针对以上创新点撰写的论文已被国际会议录用发表。最后,本论文将所研究的算法模型落地应用到了北邮教育智能化系统中,证明了本论文模型的有效应用价值。

基于深度神经网络的生物医学文本语义匹配研究

这是一篇关于孪生循环网络,注意力机制,特征提取,文本匹配的论文, 主要内容为在过去的几年里,生物医学领域所产生的数据海量增长。随着生活水平的提高,人们日渐关注自己的健康质量问题。由于现代科技的不断迭代更新,越来越多的人倾向于在互联网上搜寻医学信息和获取健康帮助。但是传统的搜索引擎存在许多不足,对于用户提出的偏口语化的医疗问句,有时会返回大量重复或者不相干的内容。面对庞大复杂的网页的相关信息,即便是医学领域专业人员也要花费大量时间去鉴别信息的准确性,而大多数使用者缺乏相关的领域知识,致使很难在搜索页面返回大量的结果中,准确搜寻到适用自己的有效信息。本文主要探索目前问答匹配模型无法充分获取到文本中所蕴含有用的医学信息,致使无法高效得到匹配结果,并通过借助当前计算机技术适当解决我国社会所存在的相关医疗资源不足等问题。为解决问答系统中文本匹配问题,本文采用基于深度学习的自然语言处理技术,结合医学领域相关知识分别针对基于有无常见问题集(Frequently-asked Questions,FAQ)标准库的自动问答展开了相关研究,具体工作如下:(1)基于FAQ问答系统提出了结合孪生循环网络和双重注意力机制的中文医学问句匹配研究,以更高效的捕获语义信息,明确使用者的提问意图,针对当前相关模型结构无法准确获取到问句文本所蕴含的丰富的上下文语义信息,为了获得更具体复杂的文本语义信息,首先利用预训练模型得到两种级别嵌入向量,然后再通过融合的神经网络模型来解决FQA医疗问答系统中问句匹配问题,有效消除因拼写错误、未识别同义词等给匹配结果带来的影响,并充分考虑前后句子重要性,优化权重分配,消除噪音,更高效准确的捕获问句语义信息。实验结果表明模型在医学文本匹配任务上性能相较于其他主流神经网络模型有较明显提升,有效的提高了中文医学文本匹配的效果。(2)对于非FAQ问答系统,需从海量医学信息中检索到与用户所提问题匹配的答案,提出了引入外部知识的医疗问答匹配方法。首先,采用预训练模型BERT学习文本的特征并输入到融合的双向GRU和注意力机制模块中,以更好地学习问答对中关键词蕴涵的信息。然后,尝试将知识图谱中的外部知识添加到数据中,实现数据集与医学知识图谱之间的实体链接。实验结果表明,加入注意力机制和外部知识的引入能有效提升模型的性能,对关键词的学习能够进一步降低知识噪声对模型的干扰。实验结果相较于基线模型获得了最高的实验成绩,证明提出的方法在解决中文医学问答匹配任务上是有效的。

多模态课程知识图谱构建与应用研究

这是一篇关于多模态,课程知识图谱,实体识别,关系识别,文本匹配的论文, 主要内容为多随着人工智能的快速发展以及人们对于教育的重视,创新教学方式受到越来越多的关注。大学课堂中,教师的教学方式不再是传统黑板板书,而是转变为包含文本、课件、视频、语音等多种形式的多媒体教学。然而,课程知识的大体框架在课本中主要以目录章节的形式展现,而章节中包含的细小知识点以及各知识点之间的关系却不能一目了然,不利于学生的学习。因此,如何对多种形式的课程资源进行有效的自动整合以及对知识进行更好的组织呈现成为具有重要意义的研究课题。面对以上问题,知识图谱提供了有效的解决方法。本文以大学计算机专业数据结构课程为例,整合不同来源不同结构的数据,提炼出数据中包含的实体及实体间语义关系,构建多模态课程知识图谱,提供一个基于知识图谱的课程多模态检索平台。一方面将知识点以直观清晰的知识图谱形式展现出来,有利于对知识的掌握。另一方面,本文构建的多模态课程知识图谱使得文本和语音模态课程资源之间相互补充,实现多模态资源整合以及课程更底层的知识点的学习路径检索,帮助学生高效学习。本文主要的研究内容及贡献有:1.本文定义了多模态课程知识图谱的数据模式,即实体类型及实体之间关系的定义。将知识点实体定义为结构、算法、相关术语三类,并将语音也定义为一类实体,并在实体之间定义了六种语义关系。2.本文采用融合双向长短期记忆网络和卷积神经网络的命名实体识别模型,将文本的局部信息和全局信息进行结合,采用条件随机场算法对特征序列进行标注,并结合了领域词典,通过对比实验证明该模型F1值有所提高,具有较好的命名实体识别效果。3.在关系分类工作中,本文将词法和句法特征向量结合,作为分类器模型输入,采用基于注意力的双向长短期记忆网络处理关系分类任务。通过与其他模型对比,证明该模型表现最佳,并对提升模型效果的注意力进行了可视化分析。4.本文提出了一个多模态实体链接方法,主要解决知识图谱中的多模态问题。首先通过语音识别技术将老师讲课语音识别成文本,其次通过文本匹配实现语音与知识点实体的匹配链接,并将二者间关系定义为关联,从而完成多模态实体链接工作。实验结果表明,本文的命名实体识别算法和关系分类算法具有较好的效果,可以使得构建的知识图谱具有较高的质量。本文最终基于Neo4j图数据库存储知识,构建出完整的多模态课程知识图谱。为了探究本文构建的多模态课程知识图谱具有很好的应用价值,本文搭建了基于知识图谱的课程多模态检索平台,提供基于知识点的多模态搜索案例,引导学生通过知识间关系进行学习。同时能够提供老师对特定知识点的课堂讲解语音,充分调动学生多种感官,提高学生的学习效果。