基于百科和垂直网站的景点属性关系抽取研究
这是一篇关于属性抽取,旅游领域,Doc2vec,序列标注,神经网络的论文, 主要内容为随着信息技术的更新迭代,互联网的信息量正以指数级速度增长,面对日益增多的文本数据,如何从其中提取出用户感兴趣的信息已经成为近几年研究的重点,信息抽取技术应运而生。属性抽取技术作为信息抽取技术的一个子领域,也是构建知识图谱必不可少的一部分。属性抽取是将非结构化数据转化为结构化数据的一种途径,属性抽取技术日趋成熟,但针对特定领域属性抽取算法性能仍有提升空间。本文主要针对内蒙古旅游领域文本做属性抽取工作,旨在能够发现特定领域中实体和属性值之间的关系,并将抽取结果转化为供后续研究的结构化数据。本文的重点研究内容如下:(1)构建内蒙古旅游领域语料库。使用Scrapy爬虫框架,获取百科类网站和垂直网站的入口URL,对文本数据进行爬取。配置Brat工具对爬取的语料进行人工标注,将其转换为BIO标注模式。(2)确定旅游领域语料中需要抽取的属性。将属性抽取的任务转化为序列标注任务,分别构建基于CRF和神经网络两种模型。(3)提出基于篇章级架构的神经网络模型。该模型利用BLSTM捕获文本的上下文信息和时序信息,利用CRF输出最优标签序列。训练每篇文档的文档级向量,并通过实验验证模型架构的可行性。(4)研究不同粒度的训练语料及添加不同特征对模型性能的影响。分为字符级和词级两种粒度。在字符级模型中添加偏旁部首特征和文档级向量,在词级模型中添加词性、字符级和文档级向量,旨在寻找标注效果最好的模型。
面向旅游领域的实体预测方法研究
这是一篇关于旅游领域,集成实体链接,知识表示,实体预测的论文, 主要内容为随着互相网的发展,网络数据呈现爆炸式的增长,因此知识图谱的不完整性成为制约其被广泛应用于智能搜索、智能问答、个性化推荐等领域的主要问题。而实体预测作为知识图谱补全的重要组成部分成为近年来知识图谱的研究热点。本文在现有研究的基础上,结合旅游领域实体较多、关系比较明显的特点,以实体链接为入手点,进行了面向旅游领域的实体预测方法的研究工作。主要完成了以下研究工作:(1)基于关系指数和表示学习的旅游领域集成实体链接针对现有实体链接方法不能很好结合文本信息和知识库信息的问题,结合旅游领域特点,提出一种基于关系指数和表示学习的旅游领域集成实体链接方法。首先构建了特定领域知识库;其次运用表示学习从文本信息中得到的向量表示计算实体指称项的上下文、主题关键词、扩展词三个特征的相似度;然后利用知识库中的关系信息计算候选实体的关系指数;最后将这三种相似度及关系指数相融合,用于实体链接。实验结果表明,相较于现有方法,该方法能够有效的提高F1值,并且该方法不需要标注语料,更加简单高效,适应于缺少标注语料的特定领域。(2)可学习图自注意力网络的端到端旅游领域知识表示学习针对现有方法没有考虑知识图谱的全局图结构信息以及知识信息不均等的特点,提出一种可学习图自注意力网络的端到端旅游领域知识表示学习方法。首先利用图自注意力网络得到知识图谱中实体节点的相关性排序;其次根据得到的相关性排序构建可卷积知识子图,获得实体的编码表示;再对关系信息进行建模,获得关系信息的编码表示,并将实体和关系的编码表示结合,获得最终的三元组嵌入表示;然后利用Conv KB模型,通过可信度得分函数对得到的三元组嵌入表示进行解码,最终获得信息更全面的知识表示。该方法利用多头图自注意力机制,赋予图谱节点不同的重要程度,并且实现了知识子图的卷积操作,增加了网络模型的可学习性。同时在解码器部分通过改进构造负样本的方式,降低了不良负样本对模型的影响。实验结果表明,提出的方法能够获得信息更丰富的知识表示,有效的提高了Hits@10、MRR值。(3)增强内部逻辑的旅游领域实体预测面向知识图谱的实体预测,即根据已有知识信息预测出潜在的三元组,在语义搜索和智能问答等应用领域发挥着重要作用。现有的实体预测方法,主要是基于表示学习或融合关系路径的方法,利用实体和关系的向量计算进行实体预测。但是这些方法在学习能力和泛化能力以及在多逻辑的实体预测任务上都表现不佳。针对以上问题,提出一种增强内部逻辑的旅游领域实体预测。该方法首先利用p Trans E模型得到实体和关系的向量表示;然后通过Mem N2N网络模型,根据得到的知识表示信息学习预测出实体信息,从而实现补全知识图谱中的三元组。该方法利用了知识表示的强计算能力和Mem N2N的强学习能力、泛化能力以及多跳注意力机制。实验结果表明,提出的方法在多步推理方面表现优异,能够有效的提高Hits@10、MRR值。
面向旅游领域的命名实体识别研究
这是一篇关于知识图谱,命名实体识别,卷积神经网络,图神经网络,旅游领域的论文, 主要内容为随着信息技术的飞速发展,我国的旅游业也朝着信息化方向快速发展。对于出游在外的游客们,运用智能化应用软件去解决出行中遇到的问题是一种十分便利的方式,例如智能路线推荐,景区的智能问答系统等。旅游文本中包含了许多具有应用价值的关键信息,包括景点名、地点名、特色小吃等,如何将这些信息抽取出来,并在此基础上提供更加智能化的服务显得尤为重要。因此,旅游领域的命名实体识别任务也越来越受到关注。命名实体识别是自然语言处理中各项任务的基础研究,而旅游领域命名实体识别是旅游知识图谱构建过程中的重要一环。与通用领域中的实体相比,旅游文本中的实体长度更长,定义更加多样化。这些特点使旅游领域上的命名实体识别任务具有了更多的挑战性。目前,针对领域的命名实体识别任务,引入词典是解决上述问题最常用的方式,但是以往引入词典的研究大多基于循环神经网络或卷积神经网络,这种融合词典的方法会因为错误分词和文本固有词序而引发一系列歧义问题,所以不能很好地利用词典信息。此外,领域内的通用数据集较少,难以开展研究。针对此类问题,本硕士学位论文分别从以下几个方面来解决:(1)针对旅游领域命名实体识别数据集缺乏的问题,本文首先收集了新疆旅游领域的相关文本信息,在以往研究的基础上结合新疆地域特色,标注并构建了小型旅游领域命名实体识别数据集。(2)在融合词典方面,提出了基于有向图模型的命名实体识别方法,该方法的核心思想是利用图神经网络消除由于分词错误、句子固有语序以及词序产生的歧义。该模型首先利用外部词典信息,将句子构建成有向图,生成相应的邻接矩阵用于匹配字词信息,然后将预训练词向量通过卷积神经网络进一步获得每个字丰富的局部特征,最后将包含局部特征的词向量和表示句子的邻接矩阵送入门控图神经网络中动态地学习字词信息,并引入条件随机场得到最优的实体标记序列。实验表明,该方法可以提高命名实体识别性能。(3)提出了图神经网络融合注意力机制的命名实体识别方法。基于有向图的方法虽然可以很好地融合词典信息,但是在学习的过程中,给予句子中的每个字同样的关注程度,并不能突出核心词汇。本文通过融合注意力的方法,进一步提升了旅游领域命名实体识别性能。
基于知识图谱的旅游问答系统研究与实现
这是一篇关于旅游领域,知识图谱,问答系统,BiLSTM-CRF的论文, 主要内容为目前互联网技术和人工智能技术正处于高速发展阶段,“互联网+传统行业”的模式在各个领域越来越占据着重要的地位。以旅游业为例,大力发展“互联网+旅游”模式,运用大数据、深度学习等前沿技术创新旅游业管理模式,已逐渐成为我国旅游发展的重要环节。以往人们在旅游高峰期游览景区时,需要通过人工咨询的方式获取信息。而以自然语言处理技术为核心的问答系统的出现,让人们游览景区时减少了不必要的时间消耗。与传统的基于搜索引擎的信息检索方式相比,问答系统能返回给用户更简洁更准确的答案,一定程度上提高了信息检索的效率。基于知识图谱的问答系统,是一种允许用户在存放着海量结构化知识的图谱上能快速获取正确答案的智能系统。本文针对旅游领域,以广西为例,给出了一种将传统的FAQ(Frequently Asked Questions)问答模型和本文提出的基于BiLSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field)的细粒度知识图谱问答模型相结合的问答系统。本文的主要研究工作如下:(1)鉴于单个网站上收纳的景点数据存在不全面的情况,本文运用Python中的Scrapy爬虫框架分别从携程网、去哪儿网和途牛网上爬取广西旅游景点数据,并对多源数据进行整合处理后倒入Neo4j图数据库,构建出了广西旅游景区知识图谱。(2)针对基于知识图谱的问答通常在候选主实体的筛选上步骤繁琐,且大多数模型忽略了问句与关系细粒度相关性的问题,给出了基于BiLSTM-CRF的细粒度知识问答模型,用于候选主实体和候选关系的选择。该模型,在实体识别部分,用BiLSTM-CRF模型来提高实体识别准确率,并将N-Gram模型与莱温斯坦距离(Levenshtein Distance)相结合用于候选主实体的筛选;在关系预测部分,分别应用注意力机制和CNN(Convolutional Neural Networks)从语义层次和词层次来捕获问句与关系之间的相互联系。最后,以FreeBase中的FB2M和FB5M作为评估数据集,对预测实体关系对的准确率进行试验分析,结果表明本文的模型显著优于现有的针对单一关系的问答方法。(3)基于已经构建好的广西旅游景区知识图谱,本文对基于BiLSTM-CRF的细粒度知识图谱问答模型进行了实现。构建出的问答系统将传统的FAQ问答模型和基于知识图谱的问答模型相结合,可以较好地满足游客对信息检索的高要求。
基于知识图谱的问答系统的设计与实现——以澳大利亚旅游为例
这是一篇关于知识图谱,问答系统,旅游领域,深度学习的论文, 主要内容为随着网络技术和与人工智能技术的快速发展,在旅游行业中利用大数据、深度学习等先进技术来进行旅游经营,已经逐步形成了一种新型的旅游经营方式。特别是在信息获取方面,以往人们在获取旅游信息时,方式多为传统搜索引擎,该方法无法快速便捷准确的获取信息。而以自然语言处理技术为核心的问答系统,在限定的领域内,可以更精确地了解使用者的用意,并且反馈出更为精准且简练的答案,从而使使用者获得信息的速度与精确度都大大提升。问答系统的知识库是影响问答系统效果的直接因素,知识图谱以其对结构化和关系化数据存储的优势,逐渐成为问答系统知识库的主要选择。而近年来,随着我国经济的不断发展,国民出境游的次数明显增加,而澳大利亚是国人出境游的热门目的地,但是有关澳大利亚旅游信息获取却不是很方便。因此,本文以澳大利亚旅游领域为例,以知识图谱为基础,结合命名实体识别、文本分类等深度学习技术,设计并开发了一个基于澳大利亚旅游知识图谱的旅游问答系统。本文的完成的主要工作如下:(1)澳大利亚旅游领域知识图谱的构建。知识图谱的构建有几个核心步骤,分别是数据获取、实体和关系定义、实体消岐和数据存储。首先,通过python的request框架和xpath语法,从多个旅游网站中爬取数据;其次,根据数据的特点定义实体和抽取关系;然后利用文本相似度技术将不同来源的数据完成实体对齐和属性融合,并将数据转成三元组的数据格式;最后,以neo4j图数据库为基础,构建完成澳大利亚旅游领域知识图谱,为问答系统的实现提供了数据基础。(2)基于知识图谱的问答系统关键任务的设计与实现。将实现基于知识图谱的问答系统的关键任务进一步细化,从答案搜索流程的角度将任务分解为问句实体识别和问句意图识别两个任务。针对问句实体识别任务,设计了BERT-Bi LSTM-CRF模型来抽取问句实体,并通过实验验证该方法比其他传统方法效果更好。针对问句意图识别任务,将其转化成文本分类任务,并结合数据特点设计了BER T-softmax模型,通过BERT模型实现旅游问句的向量表示和softmax层进行分类,并通过实验验证该方法比其它的文本分类模型效果更好。(3)基于澳大利亚旅游知识图谱的旅游问答系统的设计和实现。以基于知识图谱的问答系统的实现流程作为基准,并将知识图谱作为查询数据库,问句实体识别模型和问句意图识别模型作为语义解析方法,设计并实现了基于澳大利亚旅游知识图谱的旅游问答系统。该系统可以和用户进行实时交互,根据用户提出的有关澳大利亚旅游领域问题,利用问句实体识别模型和问句意图识别模型,识别出实体和意图类别,然后在知识图谱中基于实体和意图进行搜索并返回准确的答案。综上所述,本文设计并实现了一个基于知识图谱的中文问答系统,在基于知识图谱的中文问答系统领域做了探索,具备一定的理论意义。同时,本文设计并开发完成了澳大利亚旅游问答系统,并经过测试证明该系统对相关事实类的问答有较好的效果,能够迅速、准确地解答用户的有关澳大利亚旅游的问题,满足了用户的需求具备一定的实际价值和意义。
面向旅游领域的命名实体识别研究
这是一篇关于知识图谱,命名实体识别,卷积神经网络,图神经网络,旅游领域的论文, 主要内容为随着信息技术的飞速发展,我国的旅游业也朝着信息化方向快速发展。对于出游在外的游客们,运用智能化应用软件去解决出行中遇到的问题是一种十分便利的方式,例如智能路线推荐,景区的智能问答系统等。旅游文本中包含了许多具有应用价值的关键信息,包括景点名、地点名、特色小吃等,如何将这些信息抽取出来,并在此基础上提供更加智能化的服务显得尤为重要。因此,旅游领域的命名实体识别任务也越来越受到关注。命名实体识别是自然语言处理中各项任务的基础研究,而旅游领域命名实体识别是旅游知识图谱构建过程中的重要一环。与通用领域中的实体相比,旅游文本中的实体长度更长,定义更加多样化。这些特点使旅游领域上的命名实体识别任务具有了更多的挑战性。目前,针对领域的命名实体识别任务,引入词典是解决上述问题最常用的方式,但是以往引入词典的研究大多基于循环神经网络或卷积神经网络,这种融合词典的方法会因为错误分词和文本固有词序而引发一系列歧义问题,所以不能很好地利用词典信息。此外,领域内的通用数据集较少,难以开展研究。针对此类问题,本硕士学位论文分别从以下几个方面来解决:(1)针对旅游领域命名实体识别数据集缺乏的问题,本文首先收集了新疆旅游领域的相关文本信息,在以往研究的基础上结合新疆地域特色,标注并构建了小型旅游领域命名实体识别数据集。(2)在融合词典方面,提出了基于有向图模型的命名实体识别方法,该方法的核心思想是利用图神经网络消除由于分词错误、句子固有语序以及词序产生的歧义。该模型首先利用外部词典信息,将句子构建成有向图,生成相应的邻接矩阵用于匹配字词信息,然后将预训练词向量通过卷积神经网络进一步获得每个字丰富的局部特征,最后将包含局部特征的词向量和表示句子的邻接矩阵送入门控图神经网络中动态地学习字词信息,并引入条件随机场得到最优的实体标记序列。实验表明,该方法可以提高命名实体识别性能。(3)提出了图神经网络融合注意力机制的命名实体识别方法。基于有向图的方法虽然可以很好地融合词典信息,但是在学习的过程中,给予句子中的每个字同样的关注程度,并不能突出核心词汇。本文通过融合注意力的方法,进一步提升了旅游领域命名实体识别性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://m.bishedaima.com/lunwen/48005.html