Python知识自动问答系统的研究与实现
这是一篇关于自动问答系统,Python知识,特征词提取,句子相似度,词向量的论文, 主要内容为自动问答系统(Question Answering System,QAS)作为新一代的信息检索系统,是自然语言处理与人工智能相结合的产物,它允许用户使用自然语言问句提问,并将准确、简洁的检索答案返还给用户。将自动问答系统与教育领域的深度融合,是“互联网+教育”领域炙手可热的研究方向之一。论文选择“Python程序知识”为特定领域,以自动问答系统的问句预处理、信息检索、答案抽取三个核心部分为研究切入点,并通过网络爬虫技术与人工整理相结合构建了领域知识库,设计并实现了一套能自动回答“Python程序知识”的教育领域问答系统。本文的主要工作内容如下:(1)分析领域数据组成,实现面向多数据源构建领域知识库。根据程序设计语言领域数据特点,采用网络爬虫技术分别从百度百科与百度知道抓取领域数据,并结合各大高校领域知识信息文本人工组建Python程序设计领域常见问题知识库(FAQ)。(2)研究基于Word2Vec的关键技术。首先针对传统TextRank算法提取文本特征词忽略词汇之间连接关系的问题,采用一种使用Word2Vec将知识库中问题语料文本训练成候选特征词词向量集,并根据候选特征词汇节点之间相似度和是否存在相邻关系进行非均匀分配节点权重的方式融合TextRank算法提取特征词;然后使用基于Word2Vec的CBOW模型训练用户问句特征词,通过余弦相似度计算与问题语料特征词集之间的相似度值,根据相似度值实现问句匹配。(3)借助Jieba分词工具,结合自定义计算机专业领域词典提高领域专业词汇分词准确率。(4)采用Python语言和MySQL数据库开发,使用Flask web框架、node.js+vue前端技术实现系统可视化,设计并实现了一个致力于提高学生自主学习能力的Python知识自动问答系统。
基于知识图谱的短文本情绪评估方法研究
这是一篇关于知识图谱,情绪感知,图相似性,词向量,Bi-LSTM的论文, 主要内容为知识图谱以图的形式描述客观世界中实体及其之间的关系,是知识的最佳组织形式。目前知识图谱技术已在智能问答、推荐系统等热点研究领域得到了大规模有效应用。短文本类型数据挖掘也是目前互联网信息数据挖掘的一重要研究分支,论文将知识图谱用于短文本情绪感知分析,是基于知识图谱三元组查询方式带来的推理性能优化。论文主要研究内容与研究成果包括:(1)提出了基于推文图表的情绪评估分析方法,以有效评估短文本中具有积极和消极态度的情绪极性。具体地,论文使用推文图表将知识库表示为图,并提取图的属性,以构造用于机器学习模型的特征矩阵,知识图谱表示学习中图表的相似性则设计为与情感预测相关。为增强评估效果论文删除了与霍恩子句和其他逻辑语句对应的图特征(2)构建了基于Skip-Gram的词向量训练模型,以提升短文本词向量训练高效与准确性。论文词向量模型构建基于主流的Word2Vec模型,为获得更好的训练效果,论文比较了不同的语料库训练方法,并对基于不同相似任务的训练效果进行了评估,结果证明使用Word2Vec的Skip-Gram模型获得的词向量训练效果最佳,选其作为本论文建模方案,论文给出了模型的具体实现。最终实验结果表明,论文所设计的词向量模型,在具有更好的有效性和准确性的基础上,还具有较好的可扩展性,如对于网络流行语,也能通过找到合适的同义词去理解潜在的新词义。(3)设计了基于Bi-LSTM模型的情感分析优化模型,以提高短文本情感分析的效果与效率。利用有用信息而无论信息之间的距离与前后关系是双向长短期记忆Bi-LSTM模型的实质,关键是如何定量利用,为此论文设计了两阶段关注分析模型,通过对输入特征的重要性保持关注、对模型编码器对输入序列某些特征的实时收敛性保持关注,并最终以权值方式反映到输出向量的计算中,来提高信息利用的合理性。论文以Facebook和Twitter文本进行了实验验证,样本大小为600,Facebook和Twitter的输入序列长度为分别235和250,实验结果显示FI分数、精度和召回率分别为0.675、0.876和0.812。由此表明了论文所设计模型的有效性。
口腔种植医疗辅助系统的设计与实现
这是一篇关于口腔种植,Elasticsearch,基于案例的推理,病例,分词,词向量,VTK的论文, 主要内容为近年来,随着人口老龄化和消费不断升级,口腔种植牙的需求不断增长,越来越多的口腔医疗机构开设种植牙业务。口腔种植的技术难度大,对医生要求高,但缺少专门针对于种植领域的线上医疗学习和辅助诊断的系统平台。此外,在口腔种植领域也缺乏标准化的电子病历的采集、存储和分析工具。基于以上现状和某口腔种植医疗机构的实际需求,论文设计并实现了口腔种植医疗辅助系统。口腔种植医疗辅助系统基于Java Web技术搭建,以SSM框架为架构,采用My SQL数据库作为结构化存储工具。系统分为提供给临床医生使用的医生端和服务于医疗机构管理员使用的后台管理端。论文根据系统的实际功能需求,设计和实现了知识库搭建、知识检索学习、辅助诊断、图像浏览与操作、学习交流和个人中心等功能模块。论文的具体工作包括:(1)搭建知识库。通过数据爬取、数据清理、jieba中文分词、文本词向量等技术手段,实现了口腔种植相关知识数据的获取、清洗和词向量化。其中通过基于权值和分词的词句匹配算法来检测并删除冗余值和空缺值,通过Word2vec算法将病历的文本数据映射到向量空间。(2)知识检索学习。基于Elasticsearch实现检索功能,实现基于编辑距离算法的模糊检索,优化BM25算法的排序结果。(3)辅助诊断。根据问诊信息匹配治疗方案,运用余弦相似度的匹配算法更为精确的检索出匹配案例,并且基于医学专家设计的参数标准实现针对种植体的案例修正与学习。(4)图像浏览与操作。通过VTK与DCMTK等工具包,实现DICOM图像的读取、显示、三维重构、交互操作和距离测量等操作。(5)学习交流。提供在线视频观看与学习的功能和面向医生用户的交流社区,用户可以进行发布、删除、评论、收藏等交流活动。(6)个人中心。用户查看自己的反馈、收藏、病历等记录。口腔种植医疗辅助系统为临床医生提供在线学习平台和辅助诊断的工具,提高了治疗的有效性,也提高口腔医疗机构的日常工作效率。系统内部提供的专家指定的病历规范,为治疗规范化提供了有力保障。经实际运行,系统达到了预期目标。
基于知识图谱的财务智能问答系统的设计与实现
这是一篇关于财务知识图谱,词向量,实体,多模式匹配,问答系统的论文, 主要内容为问答系统的研究是跨越人机语义鸿沟的重要尝试之一。人的语言是模糊的,多样的,不精准的,而计算机则采取明确的、结构化形式的表达。使用知识图谱存储海量事实性知识,为基于知识图谱的问答提供了信息基础。当前,基于开放领域的知识图谱问答发展迅速,已经存在许多成熟的解决方案。而基于特定领域的知识图谱问答在医疗、金融等领域大放异彩,却很少有研究人员尝试在财务领域引入知识图谱,构建问答系统,进行日常的财务问题咨询。基于知识图谱的财务问答系统的设计与实现,就是构建一个财务领域知识图谱,并在此基础之上设计与实现问答系统。该系统抓取财务网站数据,整合企业内部已有的财务数据,通过对这些数据的分析,构建财务领域词典,并确定了本文中的知识图谱的实体、关系的定义,构建财务领域知识图谱。然后通过多模式匹配AC算法实现实体识别和基于问题模版的意图识别来实现基于知识图谱的问答,并通过Word2vec网络训练词向量和文本相似度计算来实现问答知识库检索功能。通过对比多模式匹配AC算法与其他多模式匹配算法的匹配效率验证基于词典多模式匹配的实体识别的效果,发现将所有模式串进行反转再构建有限自动机,从后向前对文本进行多模式匹配,虽然占用了更多内存,但是耗时更小。并且,基于问题模版的意图识别对于简单问句识别率较高,对于经济事项类问题,解答准确率高达85%。并且由于实现了问答知识库检索功能,对于复杂问题系统能给出相似问题的答案,总体效果令人满意。目前财务领域知识图谱已包含2077个实体,2072个关系,已涵盖了企业财务问答大部分知识,而对于系统无法解答的问题,系统提供人工导入知识方式,管理员通过操作图数据库,更新财务领域知识图谱,系统可以使用新知识对新问题进行解答,最终形成闭环的财务智能问答系统。
基于情感词向量和卷积神经网络的Twitter情感分类研究
这是一篇关于文本分类,情感分析,深度学习,词向量,卷积神经网络的论文, 主要内容为随着大数据和各大社交网络应用的飞速发展,人们越来越乐于在Facebook、Twitter等社交媒体上分享自己的心情或发表对某件事物的看法,同时也会在各大电商平台上表达自己对某产品或服务的使用感受。高效准确的对此类带有情感倾向性的文本进行处理分析可以为商家和政府提供决策支持,因此,迫切需要针对这类文本开展情感分析研究。本文针对英文Twitter文本开展情感分析的研究,对于给定的Twitter文本判断其蕴含的情感极性是积极肯定的还是消极否定的或是持中立态度。本文设计并实现了一个多粒度情感增强词向量表示模型MEWE,该模型从单词粒度和句子粒度两个层级上嵌入语义情感信息,充分利用了远监督有标注的情感语料库和情感词典资源,最终学习得到既包含上下文语义关系又蕴含丰富情感信息的词向量表示。此外,为了将单词的情感语义扩展到句子中,本文引入了深度学习思想,提出了基于卷积神经网络和多特征融合的情感分类框架,将MEWE模型得到的情感增强词向量输入至本文构建的卷积神经网络模型中,通过深度的自适应学习以获取更深层次的文本隐含特征。在特征融合方面,考虑到手工特征对于情感极性判别有着很大的帮助,并且短文本容易受到其字数的限制且缺乏上下文语义环境,单纯使用词向量表示可能造成分类效果欠佳。因此,我们将CNNs模型生成的深度情感文本向量特征与本文设计的手工特征进行特征融合拼接,最终作为情感分类的特征。本文的情感分类器并没有直接采用CNNs模型中的Softmax回归,而是采用了 SVM分类模型。特别针对三分类问题而言,设计了 One-Versus-One SVM对积极、中性、消极三类文本进行一对一的模型训练和分类判别。为了验证本文方法的科学性,我们设计了多个情感分类实验:首先设计实验来验证本文提出的MEWE模型的有效性,通过近义词检测任务分析单词的语义相似性以及进行单词情感极性分类实验计算其分类的准确率从两个角度综合评价模型的表现效果。然后我们设计进行了句子级别的情感分类实验来验证本文提出基于卷积神经网络和多特征融合的情感分类方法的有效性,在SemEval评测的Twitter语料上进行了情感三分类以及情感二分类实验,并与已有的情感分类方法进行对比分析,证实本文方法的有效性。实验结果表明,本文提出的情感词向量以及基于卷积神经网络与多特征融合的情感分类方法能够有效的解决Twitter文本情感分类任务。
基于自然语言处理的5G应用领域资讯知识图谱构建技术应用研究
这是一篇关于知识图谱,知识抽取,5G应用,词向量的论文, 主要内容为随着互联网的发展与普及,网络数据以爆发式的增长速度被生产出来。规模大、结构松散、内容多元异质是网络内容的特点,这提出了一个具有挑战性的课题——如何有效获取信息和知识。知识图谱是以图的方式存储知识的库,可以描绘自然世界中实体以及实体之间的关系,拥有语义分析能力和扩展能力,为知识结构化存储和大量智能应用提供了支持。所以,本文将知识图谱与5G应用相结合,使用知识图谱构建5G应用领域相关资讯的知识网络,实现对知识的提取、管理、存储和可视化,并结合图数据库的查找功能,探究知识图谱的应用。本文对知识图谱构建的发展历程、构建流程、方法与技术进行了系统性地梳理,然后针对5G应用领域资讯的特点,结合相关领域人员的需求,定义了 5G应用领域资讯知识图谱的节点与关系。本文采用了基于Word2Vec的自然语言处理技术对资讯数据数据集进行词向量模型训练。结合对实际条件和现有研究的分析,使用TF-IDF与DT-CS相结合的方法对资讯进行行业分类提取,使用基于Doc2Vec的余弦向量法对资讯进行相似度计算,使用TextRank对资讯进行自动生成。采用Neo4j存储知识图谱并可视化。本文通过实操验证了构建5G应用领域资讯知识图谱的可行性。基于构建的知识图谱,本文从资讯检索和资讯推荐两个方面探究了 5G应用领域资讯知识图谱在研究工作中的应用。本文成功构建了 5G应用领域资讯知识图谱,为知识图谱应用在该领域的可行性提供了参考。同时本文的成果为相关研究人员、政府与相关监管部门、相关企业提供了参考,具有一定的理论和实际意义。
基于注意力机制和CNN融合的实体关系抽取研究
这是一篇关于关系抽取,注意力机制,卷积神经网络,词向量,多尺寸卷积核的论文, 主要内容为互联网技术快速发展带动了网络信息的爆发增长,如何从大量的无结构信息中快速、准确的获得用户所需信息是当前急需解决的问题,因此信息抽取技术变的越来越重要,信息抽取技术包括命名实体识别、实体关系抽取等子任务,其能够作为自然语言处理问题中的许多任务的基础(如构建知识图谱和本体知识库、信息检索、智能问答系统)。实体关系抽取从基于规则的实体抽取方法到机器学习的实体关系抽取方法。基于规则实体关系抽取需要大量的领域知识去建立关系规则。随着机器学习的兴起,基于特征向量和基于核函数的实体抽取方法逐渐被应用,但是基于特征向量的方法需借助NLP工具进行特征的构建。基于核函数的方法需设计相对应的核函数。但是构建特征向量或构建核函数是费时费力的过程。并且特征的好坏直接影响着最终的分类效果,使用NLP工具的时候存在错误传播过程。基于上述方法的不足,深度学习方法可以从语料集中自动的抽取特征,减少了对NLP工具的依赖,不需要大量领域专家的介入就能充分利用文本的信息。基于此,本文采用卷积神经网络模型进行实体关系抽取,首先在实体关系抽取中为了让卷积神经网络能够抽取到充分的句子语义信息,利用多头自注意力机制对本文的输入进行计算,通过多头自注意力机制对句子中词两两进行相关性计算,最终得到新的词的表达,使得本文的输入词向量在输入卷积神经网络模型之前就能够具有更加丰富的上下文语义信息,在本文模型中将词的位置向量特征在注意力计算之后和词的新的表示进行融合,间接的保证了句子的时序信息。同时在卷积神经网络模型中采用了多尺寸卷积核的操作,同单一固定尺寸的卷积核相比,多尺寸卷积核能够提取到更多的文本信息,弥补了单一固定尺寸卷积核对特征提取的不足。在中文实体关系抽取中,由于中文数据集匮乏和中文语言的复杂性、特殊性等原因在此方面的研究较少,本文用一个中文人物关系数据集,同时使用word2vec词向量技术通过搜狗新闻语料来训练词向量,最终在本文模型在进行验证。实验证明,本文模型对于中文和英文实体关系抽取效果都有提升。
基于商品评论的情感分析的研究与应用
这是一篇关于情感分析,主题模型,情感倾向值,词向量,数据可视化的论文, 主要内容为随着电子商务快速发展,各类电商平台发展迅速的同时,也在改变着消费者的购物方式和购物体验,也极大的改变了我们的生活方式。其中,最能直观反映用户对商品以及电商平台的看法的数据就是商品的评论数据了,如何在大量的评论数据集中寻找具有代表性的主题和情感标签是情感分析的研究重点之一。这些数据不仅仅可以反映出用户对于商品的意见,同时也可以将用户的情感信息提取出来,用来为更多的用户以及电商平台提供商业参考价值,对商品的推荐,商品的改进以及同类商品相互之间的对比提供一个方式。因此基于商品评论数据的情感分析成为了商家和用户所关心的焦点,同时也是本文研究的重要内容。本文的主要研究内容如下:(1)本文研究了LDA主题模型,并在此基础上提出了基于评论的LDA情感主题模型。该模型针对短文本的情感主题分析问题,提出通过LDA主题模型结合情感因子来无监督的分析短文本中的情感主题的算法,并根据此算法建立情感主题模型。(2)本文设计基于情感词典计算词情感倾向值的算法,对传统的词情感倾向值算法SO-HowNet进行了改进。传统情感倾向算法只计算单个词的情感倾向值缺乏实际意义,而没有考虑词语在文档中的权值等问题。本文算法针对情感倾向计算问题,引入TF-IDF度量词的权重和词语普遍重要性,同时结合传统情感倾向值算法来计算词语情感倾向值。(3)本文设计了基于商品评论的情感主题分析模型,该模型通过中文分词以及构建词向量的算法建立可计算的中文词向量词典,然后利用基于评论的LDA情感主题模型分析出情感主题相关词袋,最后结合基于情感词典计算词情感倾向值的算法得出正面评价以及负面评价。通过实验测试,结果表明该推荐模型在准确率和召回率等方面都有了一定程度的提高。(4)最后本文设计了情感主题分析系统,完成了对系统总体功能的设计。通过对数据输入模块,数据分析模块,数据展现模块进行架构以及功能进行详细设计,通过数据可视化实现了情感主题分析系统,帮助用户分析评论数据中的情感主题。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/46412.html