面向旅游领域的蒙古文关系抽取的研究与实现
这是一篇关于蒙古文,旅游领域,关系抽取,注意力机制,BERT的论文, 主要内容为现如今,人们在旅游出行前通常会首选旅行服务软件搜索目的地的相关信息。面向旅游领域的关系抽取是构建旅游知识图谱以及开发智能推荐系统等工作的重要基础。目前面向旅游领域关系抽取工作的相关研究方法在中文和英文等大语种语言环境中较为成熟,但在蒙古文关系抽取方面的研究工作仍处于起步阶段。为了推进边疆地区旅游业智能化发展,开展面向旅游领域的蒙古文关系抽取研究工作具有重要意义。本文面向旅游领域的蒙古文关系抽取工作进行研究,主要工作如下:(1)建立了面向旅游领域的蒙古文关系抽取语料库。针对蒙古文旅游领域公开语料库较少的问题,本文利用爬虫技术收集了旅游领域的相关文本信息,将其中的中文文本进行翻译及校正处理后与蒙古文文本信息合并为新的数据集。通过预处理后进行人工标注,最终构建了含有28种关系类型、74699条语句的蒙古文旅游领域关系抽取语料库。(2)结合蒙古文构词特点,构建了基于注意力机制的蒙古文关系抽取模型。该模型根据蒙古文构词特点将单词切分后作为Word2Vec模型的输入,利用双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)进行特征抽取,在此基础上引入注意力机制优化特征向量。实验结果表明本文构建的蒙古文关系抽取模型相比基线模型的F1值提升了4.9%。(3)针对语料库中存在的一词多义的问题,本文提出了融合预训练语言模型的关系抽取方法。该方法根据蒙古文构词特点预训练了蒙古文BERT(Bidirectional Encoder Representations from Transformer,BERT)模型,并在此基础上构建了BM-BiLSTM-Attention和BM-BiGRU-Attention两种蒙古文关系抽取模型。实验结果表明,使用蒙古文BERT进行向量化表示有效提升了关系抽取效果,上述两种模型在关系抽取任务中的F1值均达到了70%以上。本文以上述研究为基础,设计并搭建了蒙古文关系抽取系统,实现了面向旅游领域的蒙古文关系抽取服务。
面向旅游领域的命名实体识别研究
这是一篇关于知识图谱,命名实体识别,卷积神经网络,图神经网络,旅游领域的论文, 主要内容为随着信息技术的飞速发展,我国的旅游业也朝着信息化方向快速发展。对于出游在外的游客们,运用智能化应用软件去解决出行中遇到的问题是一种十分便利的方式,例如智能路线推荐,景区的智能问答系统等。旅游文本中包含了许多具有应用价值的关键信息,包括景点名、地点名、特色小吃等,如何将这些信息抽取出来,并在此基础上提供更加智能化的服务显得尤为重要。因此,旅游领域的命名实体识别任务也越来越受到关注。命名实体识别是自然语言处理中各项任务的基础研究,而旅游领域命名实体识别是旅游知识图谱构建过程中的重要一环。与通用领域中的实体相比,旅游文本中的实体长度更长,定义更加多样化。这些特点使旅游领域上的命名实体识别任务具有了更多的挑战性。目前,针对领域的命名实体识别任务,引入词典是解决上述问题最常用的方式,但是以往引入词典的研究大多基于循环神经网络或卷积神经网络,这种融合词典的方法会因为错误分词和文本固有词序而引发一系列歧义问题,所以不能很好地利用词典信息。此外,领域内的通用数据集较少,难以开展研究。针对此类问题,本硕士学位论文分别从以下几个方面来解决:(1)针对旅游领域命名实体识别数据集缺乏的问题,本文首先收集了新疆旅游领域的相关文本信息,在以往研究的基础上结合新疆地域特色,标注并构建了小型旅游领域命名实体识别数据集。(2)在融合词典方面,提出了基于有向图模型的命名实体识别方法,该方法的核心思想是利用图神经网络消除由于分词错误、句子固有语序以及词序产生的歧义。该模型首先利用外部词典信息,将句子构建成有向图,生成相应的邻接矩阵用于匹配字词信息,然后将预训练词向量通过卷积神经网络进一步获得每个字丰富的局部特征,最后将包含局部特征的词向量和表示句子的邻接矩阵送入门控图神经网络中动态地学习字词信息,并引入条件随机场得到最优的实体标记序列。实验表明,该方法可以提高命名实体识别性能。(3)提出了图神经网络融合注意力机制的命名实体识别方法。基于有向图的方法虽然可以很好地融合词典信息,但是在学习的过程中,给予句子中的每个字同样的关注程度,并不能突出核心词汇。本文通过融合注意力的方法,进一步提升了旅游领域命名实体识别性能。
面向旅游领域的蒙古文关系抽取的研究与实现
这是一篇关于蒙古文,旅游领域,关系抽取,注意力机制,BERT的论文, 主要内容为现如今,人们在旅游出行前通常会首选旅行服务软件搜索目的地的相关信息。面向旅游领域的关系抽取是构建旅游知识图谱以及开发智能推荐系统等工作的重要基础。目前面向旅游领域关系抽取工作的相关研究方法在中文和英文等大语种语言环境中较为成熟,但在蒙古文关系抽取方面的研究工作仍处于起步阶段。为了推进边疆地区旅游业智能化发展,开展面向旅游领域的蒙古文关系抽取研究工作具有重要意义。本文面向旅游领域的蒙古文关系抽取工作进行研究,主要工作如下:(1)建立了面向旅游领域的蒙古文关系抽取语料库。针对蒙古文旅游领域公开语料库较少的问题,本文利用爬虫技术收集了旅游领域的相关文本信息,将其中的中文文本进行翻译及校正处理后与蒙古文文本信息合并为新的数据集。通过预处理后进行人工标注,最终构建了含有28种关系类型、74699条语句的蒙古文旅游领域关系抽取语料库。(2)结合蒙古文构词特点,构建了基于注意力机制的蒙古文关系抽取模型。该模型根据蒙古文构词特点将单词切分后作为Word2Vec模型的输入,利用双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)进行特征抽取,在此基础上引入注意力机制优化特征向量。实验结果表明本文构建的蒙古文关系抽取模型相比基线模型的F1值提升了4.9%。(3)针对语料库中存在的一词多义的问题,本文提出了融合预训练语言模型的关系抽取方法。该方法根据蒙古文构词特点预训练了蒙古文BERT(Bidirectional Encoder Representations from Transformer,BERT)模型,并在此基础上构建了BM-BiLSTM-Attention和BM-BiGRU-Attention两种蒙古文关系抽取模型。实验结果表明,使用蒙古文BERT进行向量化表示有效提升了关系抽取效果,上述两种模型在关系抽取任务中的F1值均达到了70%以上。本文以上述研究为基础,设计并搭建了蒙古文关系抽取系统,实现了面向旅游领域的蒙古文关系抽取服务。
面向旅游领域的蒙古文关系抽取的研究与实现
这是一篇关于蒙古文,旅游领域,关系抽取,注意力机制,BERT的论文, 主要内容为现如今,人们在旅游出行前通常会首选旅行服务软件搜索目的地的相关信息。面向旅游领域的关系抽取是构建旅游知识图谱以及开发智能推荐系统等工作的重要基础。目前面向旅游领域关系抽取工作的相关研究方法在中文和英文等大语种语言环境中较为成熟,但在蒙古文关系抽取方面的研究工作仍处于起步阶段。为了推进边疆地区旅游业智能化发展,开展面向旅游领域的蒙古文关系抽取研究工作具有重要意义。本文面向旅游领域的蒙古文关系抽取工作进行研究,主要工作如下:(1)建立了面向旅游领域的蒙古文关系抽取语料库。针对蒙古文旅游领域公开语料库较少的问题,本文利用爬虫技术收集了旅游领域的相关文本信息,将其中的中文文本进行翻译及校正处理后与蒙古文文本信息合并为新的数据集。通过预处理后进行人工标注,最终构建了含有28种关系类型、74699条语句的蒙古文旅游领域关系抽取语料库。(2)结合蒙古文构词特点,构建了基于注意力机制的蒙古文关系抽取模型。该模型根据蒙古文构词特点将单词切分后作为Word2Vec模型的输入,利用双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)进行特征抽取,在此基础上引入注意力机制优化特征向量。实验结果表明本文构建的蒙古文关系抽取模型相比基线模型的F1值提升了4.9%。(3)针对语料库中存在的一词多义的问题,本文提出了融合预训练语言模型的关系抽取方法。该方法根据蒙古文构词特点预训练了蒙古文BERT(Bidirectional Encoder Representations from Transformer,BERT)模型,并在此基础上构建了BM-BiLSTM-Attention和BM-BiGRU-Attention两种蒙古文关系抽取模型。实验结果表明,使用蒙古文BERT进行向量化表示有效提升了关系抽取效果,上述两种模型在关系抽取任务中的F1值均达到了70%以上。本文以上述研究为基础,设计并搭建了蒙古文关系抽取系统,实现了面向旅游领域的蒙古文关系抽取服务。
面向旅游领域的智能问答系统设计与实现
这是一篇关于旅游领域,知识图谱,问答系统,注意力机制的论文, 主要内容为近年来,随着互联网的发展,传统旅游业迎来全新变革。越来越多旅游景区开始应用“互联网+旅游”发展模式。目前,旅游领域中亟待解决的问题是游客如何快速且准确地获取信息。以往,游客主要通过传统搜索引擎获取信息,但其无法满足快而准确的需求。而与传统搜索引擎不同,问答系统直接返回答案,能够满足游客的实际需求。目前,问答系统的数据来源主要包括问答对数据、文档数据、以及结构化数据等。与前两个相比,基于结构化数据的问答系统返回的答案更加准确、简洁。传统的关系型数据库在结构化数据存储方面面临挑战,然而知识图谱能够解决此问题。基于知识图谱的问答系统是一种以知识图谱作为答案来源的问答系统,该系统允许用户通过自然语言获取知识图谱中存储的数据。本文工作旨在依赖知识图谱实现面向旅游领域的智能问答系统。其中,基础知识图谱采用内蒙古自治区蒙古文信息处理技术重点实验室在2018年至2019年构建的旅游领域知识图谱NMTKG-1。综上,本文的主要研究内容如下:(1)扩充旅游领域知识图谱。基础知识图谱NMTKG-1中包含的旅游景点信息没有涵盖周边信息。为提升问答系统的性能,本文采用了一种基于百度地图API的知识扩充方法。结果表明,该方法能够有效扩充旅游景点的周边信息。(2)实现基于旅游领域知识图谱的智能问答系统。从自然语言问句到答案生成的流程中包括两个关键步骤,分别为命名实体识别和属性选择。其中,在命名实体识别任务上,本文提出了一种基于BERT-BLSTM-ATT-CRF的命名实体识别方法,该方法利用BERT模型学习文本的字符特征,利用BLSTM模型学习文本的上下文特征,利用注意力机制关注文本中的重点信息,利用CRF模型获取全局最优的输出序列。实验结果表明,该方法可以有效提升系统性能。在属性选择任务上,本文提出了一种基于GSA_SMCNN的属性选择方法,该方法利用BGRU模型学习问句和属性在语义级别上的特征,利用CNN模型学习问句和属性在词语级别上的特征。实验结果表明,该方法可以有效提升系统性能。(3)实现旅游助手APP。本文为用户提供了旅游助手微信小程序。该助手的前端采用Vue.js语言开发,后端采用Python语言开发,旅游领域知识图谱NMTKG-2采用Neo4j数据库存储。该助手提供的功能有旅游信息问答、天气信息问答、以及车票信息问答等。
面向旅游领域的蒙古文关系抽取的研究与实现
这是一篇关于蒙古文,旅游领域,关系抽取,注意力机制,BERT的论文, 主要内容为现如今,人们在旅游出行前通常会首选旅行服务软件搜索目的地的相关信息。面向旅游领域的关系抽取是构建旅游知识图谱以及开发智能推荐系统等工作的重要基础。目前面向旅游领域关系抽取工作的相关研究方法在中文和英文等大语种语言环境中较为成熟,但在蒙古文关系抽取方面的研究工作仍处于起步阶段。为了推进边疆地区旅游业智能化发展,开展面向旅游领域的蒙古文关系抽取研究工作具有重要意义。本文面向旅游领域的蒙古文关系抽取工作进行研究,主要工作如下:(1)建立了面向旅游领域的蒙古文关系抽取语料库。针对蒙古文旅游领域公开语料库较少的问题,本文利用爬虫技术收集了旅游领域的相关文本信息,将其中的中文文本进行翻译及校正处理后与蒙古文文本信息合并为新的数据集。通过预处理后进行人工标注,最终构建了含有28种关系类型、74699条语句的蒙古文旅游领域关系抽取语料库。(2)结合蒙古文构词特点,构建了基于注意力机制的蒙古文关系抽取模型。该模型根据蒙古文构词特点将单词切分后作为Word2Vec模型的输入,利用双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)进行特征抽取,在此基础上引入注意力机制优化特征向量。实验结果表明本文构建的蒙古文关系抽取模型相比基线模型的F1值提升了4.9%。(3)针对语料库中存在的一词多义的问题,本文提出了融合预训练语言模型的关系抽取方法。该方法根据蒙古文构词特点预训练了蒙古文BERT(Bidirectional Encoder Representations from Transformer,BERT)模型,并在此基础上构建了BM-BiLSTM-Attention和BM-BiGRU-Attention两种蒙古文关系抽取模型。实验结果表明,使用蒙古文BERT进行向量化表示有效提升了关系抽取效果,上述两种模型在关系抽取任务中的F1值均达到了70%以上。本文以上述研究为基础,设计并搭建了蒙古文关系抽取系统,实现了面向旅游领域的蒙古文关系抽取服务。
面向旅游领域的实体预测方法研究
这是一篇关于旅游领域,集成实体链接,知识表示,实体预测的论文, 主要内容为随着互相网的发展,网络数据呈现爆炸式的增长,因此知识图谱的不完整性成为制约其被广泛应用于智能搜索、智能问答、个性化推荐等领域的主要问题。而实体预测作为知识图谱补全的重要组成部分成为近年来知识图谱的研究热点。本文在现有研究的基础上,结合旅游领域实体较多、关系比较明显的特点,以实体链接为入手点,进行了面向旅游领域的实体预测方法的研究工作。主要完成了以下研究工作:(1)基于关系指数和表示学习的旅游领域集成实体链接针对现有实体链接方法不能很好结合文本信息和知识库信息的问题,结合旅游领域特点,提出一种基于关系指数和表示学习的旅游领域集成实体链接方法。首先构建了特定领域知识库;其次运用表示学习从文本信息中得到的向量表示计算实体指称项的上下文、主题关键词、扩展词三个特征的相似度;然后利用知识库中的关系信息计算候选实体的关系指数;最后将这三种相似度及关系指数相融合,用于实体链接。实验结果表明,相较于现有方法,该方法能够有效的提高F1值,并且该方法不需要标注语料,更加简单高效,适应于缺少标注语料的特定领域。(2)可学习图自注意力网络的端到端旅游领域知识表示学习针对现有方法没有考虑知识图谱的全局图结构信息以及知识信息不均等的特点,提出一种可学习图自注意力网络的端到端旅游领域知识表示学习方法。首先利用图自注意力网络得到知识图谱中实体节点的相关性排序;其次根据得到的相关性排序构建可卷积知识子图,获得实体的编码表示;再对关系信息进行建模,获得关系信息的编码表示,并将实体和关系的编码表示结合,获得最终的三元组嵌入表示;然后利用Conv KB模型,通过可信度得分函数对得到的三元组嵌入表示进行解码,最终获得信息更全面的知识表示。该方法利用多头图自注意力机制,赋予图谱节点不同的重要程度,并且实现了知识子图的卷积操作,增加了网络模型的可学习性。同时在解码器部分通过改进构造负样本的方式,降低了不良负样本对模型的影响。实验结果表明,提出的方法能够获得信息更丰富的知识表示,有效的提高了Hits@10、MRR值。(3)增强内部逻辑的旅游领域实体预测面向知识图谱的实体预测,即根据已有知识信息预测出潜在的三元组,在语义搜索和智能问答等应用领域发挥着重要作用。现有的实体预测方法,主要是基于表示学习或融合关系路径的方法,利用实体和关系的向量计算进行实体预测。但是这些方法在学习能力和泛化能力以及在多逻辑的实体预测任务上都表现不佳。针对以上问题,提出一种增强内部逻辑的旅游领域实体预测。该方法首先利用p Trans E模型得到实体和关系的向量表示;然后通过Mem N2N网络模型,根据得到的知识表示信息学习预测出实体信息,从而实现补全知识图谱中的三元组。该方法利用了知识表示的强计算能力和Mem N2N的强学习能力、泛化能力以及多跳注意力机制。实验结果表明,提出的方法在多步推理方面表现优异,能够有效的提高Hits@10、MRR值。
面向旅游领域的蒙古文关系抽取的研究与实现
这是一篇关于蒙古文,旅游领域,关系抽取,注意力机制,BERT的论文, 主要内容为现如今,人们在旅游出行前通常会首选旅行服务软件搜索目的地的相关信息。面向旅游领域的关系抽取是构建旅游知识图谱以及开发智能推荐系统等工作的重要基础。目前面向旅游领域关系抽取工作的相关研究方法在中文和英文等大语种语言环境中较为成熟,但在蒙古文关系抽取方面的研究工作仍处于起步阶段。为了推进边疆地区旅游业智能化发展,开展面向旅游领域的蒙古文关系抽取研究工作具有重要意义。本文面向旅游领域的蒙古文关系抽取工作进行研究,主要工作如下:(1)建立了面向旅游领域的蒙古文关系抽取语料库。针对蒙古文旅游领域公开语料库较少的问题,本文利用爬虫技术收集了旅游领域的相关文本信息,将其中的中文文本进行翻译及校正处理后与蒙古文文本信息合并为新的数据集。通过预处理后进行人工标注,最终构建了含有28种关系类型、74699条语句的蒙古文旅游领域关系抽取语料库。(2)结合蒙古文构词特点,构建了基于注意力机制的蒙古文关系抽取模型。该模型根据蒙古文构词特点将单词切分后作为Word2Vec模型的输入,利用双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)进行特征抽取,在此基础上引入注意力机制优化特征向量。实验结果表明本文构建的蒙古文关系抽取模型相比基线模型的F1值提升了4.9%。(3)针对语料库中存在的一词多义的问题,本文提出了融合预训练语言模型的关系抽取方法。该方法根据蒙古文构词特点预训练了蒙古文BERT(Bidirectional Encoder Representations from Transformer,BERT)模型,并在此基础上构建了BM-BiLSTM-Attention和BM-BiGRU-Attention两种蒙古文关系抽取模型。实验结果表明,使用蒙古文BERT进行向量化表示有效提升了关系抽取效果,上述两种模型在关系抽取任务中的F1值均达到了70%以上。本文以上述研究为基础,设计并搭建了蒙古文关系抽取系统,实现了面向旅游领域的蒙古文关系抽取服务。
面向旅游领域的蒙古文关系抽取的研究与实现
这是一篇关于蒙古文,旅游领域,关系抽取,注意力机制,BERT的论文, 主要内容为现如今,人们在旅游出行前通常会首选旅行服务软件搜索目的地的相关信息。面向旅游领域的关系抽取是构建旅游知识图谱以及开发智能推荐系统等工作的重要基础。目前面向旅游领域关系抽取工作的相关研究方法在中文和英文等大语种语言环境中较为成熟,但在蒙古文关系抽取方面的研究工作仍处于起步阶段。为了推进边疆地区旅游业智能化发展,开展面向旅游领域的蒙古文关系抽取研究工作具有重要意义。本文面向旅游领域的蒙古文关系抽取工作进行研究,主要工作如下:(1)建立了面向旅游领域的蒙古文关系抽取语料库。针对蒙古文旅游领域公开语料库较少的问题,本文利用爬虫技术收集了旅游领域的相关文本信息,将其中的中文文本进行翻译及校正处理后与蒙古文文本信息合并为新的数据集。通过预处理后进行人工标注,最终构建了含有28种关系类型、74699条语句的蒙古文旅游领域关系抽取语料库。(2)结合蒙古文构词特点,构建了基于注意力机制的蒙古文关系抽取模型。该模型根据蒙古文构词特点将单词切分后作为Word2Vec模型的输入,利用双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)进行特征抽取,在此基础上引入注意力机制优化特征向量。实验结果表明本文构建的蒙古文关系抽取模型相比基线模型的F1值提升了4.9%。(3)针对语料库中存在的一词多义的问题,本文提出了融合预训练语言模型的关系抽取方法。该方法根据蒙古文构词特点预训练了蒙古文BERT(Bidirectional Encoder Representations from Transformer,BERT)模型,并在此基础上构建了BM-BiLSTM-Attention和BM-BiGRU-Attention两种蒙古文关系抽取模型。实验结果表明,使用蒙古文BERT进行向量化表示有效提升了关系抽取效果,上述两种模型在关系抽取任务中的F1值均达到了70%以上。本文以上述研究为基础,设计并搭建了蒙古文关系抽取系统,实现了面向旅游领域的蒙古文关系抽取服务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/lunwen/52682.html