基于BERT预训练模型的动物科学领域命名实体识别研究
这是一篇关于命名实体识别,动物科学领域,双向LSTM,BERT,条件随机场的论文, 主要内容为随着“新农科”建设的推进和农业信息化技术的发展,动物科学专业得到快速发展,很多动物科学领域工作者通过互联网提出问题、获取知识。命名实体识别是自然语言处理领域中的一项核心基础技术,可以从各类非结构化问答数据中识别实体、获取有用信息,进而构建问答系统、知识图谱等应用,为动物科学领域工作者所使用。命名实体识别虽然在中文的多个领域得到应用,但是很多汉字存在一词多义的特点,而传统词嵌入技术获取的词向量无法表现出这种一词多义的特征,除此之外,动物科学领域专业性强且目前该领域缺乏用于实体识别所需要的标注数据等原因,导致动物科学领域命名实体识别发展缓慢。本文创建动物科学领域语料库,并构建新的实体识别模型应用于该语料库,主要研究内容如下:(1)从知网中获取动物科学领域相关的中文文献,作为语料库基础文本,对基础文本进行预处理清洗后,使用语料标注工具,采用“BIO”(B-begin,I-inside,O-outside)标注模式,对文本语料进行标注,创建动物科学领域语料库。(2)基于BERT预训练模型,对常用的LSTM-CRF命名实体识别模型进行改进,引入双向长短期记忆网络,构建一种基于BERT预训练模型的BERT-Bi LSTM-CRF模型,该模型首先利用BERT预训练模型得到有上下文语义信息的词向量表示,有效解决一词多义问题,再将词向量表示输入到双向长短期记忆网络层进行上下文编码,提高识别准确性,最后通过条件随机场获得最优识别效果。(3)将模型在创建的动物科学领域语料库上进行实验,并与RNN-CRF、LSTM-CRF、Bi LSTM-CRF以及BERT-CRF模型进行对比。结果表明,该模型实体识别的精确率、召回率与F1值均优于其他模型,证明了该模型的有效性。
基于主题图谱的睡眠专题知识自动分类与推荐
这是一篇关于主题图谱,文本分类,知识服务,双向LSTM的论文, 主要内容为伴随大数据时代的到来,信息文本爆炸增长,已有的知识获取方式早已不能解决用户的知识性需求,面对大量信息资源我们应该进行组织加工方法的变革与更新,创建了新的医疗健康信息化服务模式。在新的时代要求下,人们希望能有一款理解领域知识,塑造领域知识轮廓,进入能帮助人们掌握领域知识的移动软件。为了达到这个目标,我们的首要任务就是能从海量的互联网信息资源中准确获取目标知识,文本分类正是解决这个问题的关键技术。然而,传统的文本分类模型有较大的局限性,无法分析文档中关键词之间的语义联系,也不能满足人们对层次化分类的基本需求。为了解决这个问题,本文提出了一种基于单一主题下知识图谱的文本分类算法,并在这个算法的基础上构建了一个睡眠主题的知识服务系统。为了达到语义网络层次分类的目的,本文引入了知识图谱技术。通过构建单一主题领域下知识图谱,结合经典SVM(Support Vector Machine,支持向量机)文本分类模型分析文本与图谱内知识实体的相似度,该算法实现了具有知识概念网络的文本分类效果,为整个睡眠主题知识服务奠定了基础。本文的研究内容主要有以下三个方面:以百科知识库中庞大的词条语料为基础构建主题图谱。首先,研究分析基于百科词库提供的睡眠主题种子语料,对数据进行采集与结构化;随后,采用中文分词、实体识别等技术对词条文本内容进行实体抽取,并使用机器学习算法——双向LSTM(Long Short-Term Memory,长短期记忆)模型抽取实体之间关系,从而构建主题图谱,并对实验结果进行了相关评价测试。本文提出一种基于主题图谱的文本分类算法。算法的主要思想是结合构建的主题图谱,将文本分类任务分成更小的子问题,从而提高文本分类的效率,降低硬件占用率。鉴于本文的主题图谱是有向无环类别树结构,因此,我们采用了一种自顶向下的文本分类模型。具体来说,在主题图谱的每一个知识实体节点收集样本,训练出子文本分类器,然后自顶向下通过这些分类器把大量待分类的文本分到主题图谱的实体类别中,从而实现了文本的语义网络化分类。最后,基于主题图谱和文本分类算法,本文构建一个睡眠主题的知识服务系统,该系统面向移动设备,负责睡眠主题知识的自动获取和推送。系统的主要结构为:首先,利用主题图谱对专业领域的知识数据进行有效挖掘和分析,使用文本分类算法搜索主题相关的知识;其后,以每个知识实体为信息结构单位,以单位信息为枢纽实现知识系统;最后,通过移动设备对用户提供服务。
基于深度BLSTM和多准则候选的个性化推荐系统研究
这是一篇关于推荐系统,双向LSTM,模糊K邻近算法的论文, 主要内容为随着智能设备应用的普及,各类数据信息呈爆炸式地增长,推荐系统成了解决信息过载的重要方法。现今推荐系统已在电子商务、大数据和机器学习等领域广泛应用,如何获取用户的兴趣特征、模仿用户的行为模式一直是其研究重点。推荐系统发展至今,主要分为三大类:基于内容的推荐、协同过滤和混合推荐。基于内容的推荐能准确学习到用户特征,解释性强,却面临冷启动问题和推荐项目新颖性的问题;协同过滤虽然可以有效利用其它用户或项目的信息进行推荐,缓解新颖性问题,可是却面临着稀疏问题和可拓展问题的挑战;混合系统则是利用各算法的优势进行组合以提高整个混合推荐系统的性能。本文针对数据稀疏问题和鲜有算法考虑用户本体特征的问题,提出一直多准则模糊K邻近推荐算法;以及针对用户兴趣动态变化的问题,提出一种基于深层双向长短期记忆(LSTM)网络的推荐算法。最后将两种推荐算法进行结合,利用各自优势互补来减少浅层模型学习能力不足和冷启动问题带来的影响。本文主要工作如下:1)针对数据稀疏度和未考虑用户本体特征,提出了多准则模糊K邻近算法。使用模糊数学处理用户评分矩阵并采用模糊相似度度量公式,以降低用户评分模糊性所带来的影响。再引入个人信息相似性和用户-用户的Jaccard系数,以完善用户之间的综合相似度度量公式。使用K邻近算法,给出拟推荐项目列表。相对于其他K邻近算法,RMSE和MAE都降低了约1%-4%,F值提高了约1%-4.5%;2)针对传统协同过滤无法学习用户特征,更无法有效利用时间因素解决用户兴趣动态变化的问题,提出一种基于深层双向长短期记忆(LSTM)网络的推荐算法。在算法中引入循环神经网络,采用深层双向长短期记忆(LSTM)网络,从前后两个时间顺序上学习用户历史评分行为和兴趣周期特征,并利用深层网络进行叠加学习,构建更加贴合用户评分习惯的评分预测模型。同时加入dropout策略来解决过拟合问题,以提高预测精度。相对于现有的其他神经网络模型,各项误差降低2%-5%,r2提高了5%-10%;3)将多准则模糊K邻近算法和深度双向长短期记忆(LSTM)网络模型进行结合,使用后者解决前者因浅层模型导致的学习能力不足问题,同时使用前者解决后者的冷启动问题。利用多准则模糊K邻近算法获取拟推荐项目列表,缩小推荐搜索空间,再通过深度双向长短期记忆(LSTM)网络对拟推荐项目进行预测评分,获得最终TopN推荐列表。最后从K邻近改进算法、浅层模型推荐算法和深层模型推荐算法三个角度进行对比实验。实验证明本文提出的个性化推荐算法相较于其他各类协同过滤算法,RMSE降低了约2%-5%、MAE降低了约2%-5%,和F值提高了约2%-3.5%。
基于BERT预训练模型的动物科学领域命名实体识别研究
这是一篇关于命名实体识别,动物科学领域,双向LSTM,BERT,条件随机场的论文, 主要内容为随着“新农科”建设的推进和农业信息化技术的发展,动物科学专业得到快速发展,很多动物科学领域工作者通过互联网提出问题、获取知识。命名实体识别是自然语言处理领域中的一项核心基础技术,可以从各类非结构化问答数据中识别实体、获取有用信息,进而构建问答系统、知识图谱等应用,为动物科学领域工作者所使用。命名实体识别虽然在中文的多个领域得到应用,但是很多汉字存在一词多义的特点,而传统词嵌入技术获取的词向量无法表现出这种一词多义的特征,除此之外,动物科学领域专业性强且目前该领域缺乏用于实体识别所需要的标注数据等原因,导致动物科学领域命名实体识别发展缓慢。本文创建动物科学领域语料库,并构建新的实体识别模型应用于该语料库,主要研究内容如下:(1)从知网中获取动物科学领域相关的中文文献,作为语料库基础文本,对基础文本进行预处理清洗后,使用语料标注工具,采用“BIO”(B-begin,I-inside,O-outside)标注模式,对文本语料进行标注,创建动物科学领域语料库。(2)基于BERT预训练模型,对常用的LSTM-CRF命名实体识别模型进行改进,引入双向长短期记忆网络,构建一种基于BERT预训练模型的BERT-Bi LSTM-CRF模型,该模型首先利用BERT预训练模型得到有上下文语义信息的词向量表示,有效解决一词多义问题,再将词向量表示输入到双向长短期记忆网络层进行上下文编码,提高识别准确性,最后通过条件随机场获得最优识别效果。(3)将模型在创建的动物科学领域语料库上进行实验,并与RNN-CRF、LSTM-CRF、Bi LSTM-CRF以及BERT-CRF模型进行对比。结果表明,该模型实体识别的精确率、召回率与F1值均优于其他模型,证明了该模型的有效性。
基于自定义词典的网络文本情感分析方法
这是一篇关于微博,主题聚类,情感分类,自定义词典,双向LSTM的论文, 主要内容为随着当前互联网用户越来越多,社交平台可以获取到的数据也日益增长,微博就是热门的社交平台之一。作为一种社交媒体,微博提供了平台共享,用户可以分享他们对某些主题的感受和想法。微博的热点主题一般是新出现的焦点事件,这些事件立即吸引更多的关注者和更多的在线关注,这提供了一个独特的机会来将公众的情绪与这些用户关注的事件结合起来分析。主题聚类、情感分析和舆情分析一直是自然语言处理热门的领域,本论文在已有的研究基础上,进行研究并提出新的研究方法,对新浪微博的数据进行挖掘、分析和可视化,主要工作如下:第一,挖掘已知主题关键字的微博。现有的主题聚类方法是在不知道主题关键字的情况下,发现主题和主题聚类同时进行,例如热门微博话题发现和聚类。本论文在已知的主题关键字下发现及扩充相关微博。已有的主题挖掘方法,巧妙的使用了新浪微博特有的“#”标签,使用分层聚类算法,将带有“#”标签的微博有效地进行主题聚类,但忽略了大部分不带“#”标签的消息。本文在此之上,基于带有“#”标签的主题聚类,扩充可以挖掘的同一主题的不带“#”标签的微博,并将这种方法用于微博主题爬虫。第二,基于自定义词典、注意力机制的双向LSTM微博文本情感分类。已有的基于注意力机制的双向LSTM文本分类方法,若使用word2vec的文本表示方法,则会有只考虑上下文太小,没有考虑全局统计的情况,从而加入使用GloVe的文本表示方法,而上述两种方法都未考虑词性对文本分类的影响。本论文在典型的基于注意力机制的双向LSTM文本分类方法中,加入自定义词典,使用word2vec、Glove和词性的三词向量的文本表示方法,同时改进神经网络结构。第三,实时的微博主题消息挖掘和情感分析系统。实现实时微博主题爬虫系统,包括关键字微博消息爬取,微博消息可搜索,情感分析结果图,消息国内分布情况等功能的可视化。系统考虑到数据获取,数据库存储,数据分析,数据展示,按软件的需求分析,系统设计,系统实现,系统测试进行叙述。
时序知识图谱表示学习关键技术研究
这是一篇关于双向LSTM,图注意力网络,时间编码,知识表示学习的论文, 主要内容为随着互联网技术的发展,网络数据呈几何倍数增长,信息量增多的同时也带来了更多的冗余信息。此外,这些海量数据大多数是结构不规则的多元异构数据,现有的计算机技术很难从中挖掘知识,知识图谱便应运而生。时序知识图谱在静态知识图谱中增加了时间元素,使得事件的成立是有时间范围的,这样描述的事实信息更贴近现实世界。人们在实际应用中面临两个挑战:数据稀疏和计算效率低下。知识表示学习是面向知识图谱中实体和关系进行表示学习,将实体和关系表示到低维稠密的空间中,有效解决数据稀疏问题,也使得知识图谱具有可计算性,有效提升后续知识获取、融合、推理、搜索等任务和应用的性能。现有的时序知识图谱表示学习模型在考虑时间信息时对其语义信息利用情况较差,同时在处理时间段数据集时因直接划分时间区间而会导致性能差异较大,本文针对知识表示学习任务中存在的上述问题展开研究,对现有模型进行改进,以提高模型的有效性。论文主要工作如下:(1)提出了一个基于BiLSTM的时序知识图谱表示学习模型。针对已有模型未能充分利用时间的语义信息,本方法采用LSTM挖掘时间的序列特性,并借鉴自然语言处理中的词嵌入方法,设计了词袋模型,考虑到了时间蕴含的语义特性;首先,根据现有时间计数规律构造时间相关的词袋,将时间转换为时间序列,再分别与实体和关系进行连接,构成实体/关系时间序列,然后利用双向LSTM对实体/关系时间序列进行编码,最后,得到融合时间信息的实体和关系嵌入。在两个ICEWS数据集上的实验结果验证了该模型的有效性。(2)提出了一个基于多头图注意力网络的时序知识图谱表示学习模型。首先,针对已有模型时间处理方式在时间段数据集上的不足,本章模型提出在时间处理中将综合考虑绝对时间点和相对时间跨度信息。其次,将图注意力网络迁移到时序知识图谱时,实体和实体之间的关系因为要考虑时间因素而变得更加复杂,本章模型考虑了常见的关系时间组合,并讨论这些组合对实体的影响;进一步地,借鉴图注意力网络的思想,实体更新表示时融入了邻居节点以及邻居边的影响,利用连接的实体对提取关系随时间的演变信息。最后,在四个时序知识图谱的链接预测任务的结果验证了该模型的有效性和鲁棒性。
基于深度学习和评论挖掘的动态混合推荐算法研究
这是一篇关于推荐算法,栈式降噪编码器,双向LSTM,评论挖掘,时间衰减的论文, 主要内容为推荐系统基于用户历史行为数据建模用户兴趣偏好,从海量数据中获取有价值的信息。协同过滤算法因仅使用评分数据,简单高效,而被广泛应用,但是却存在评分数据稀疏和冷启动问题。引入深度学习技术到推荐系统中为解决上述问题带来了新的研究方向。深度学习可通过构建一种深层次非线性网络结构,从多源信息中提取用户和物品的非线性特征,具备强大的挖掘样本集潜在特征的能力。现如今,基于深度学习的推荐算法在一定程度上取得了不错的研究成果,但仍然存在一些问题:第一,很多基于深度学习算法中仅利用用户的评分数据建模,而忽略了很多不同类型的上下文信息,如评论、标签、地理、社交、时间等信息,未能很好的解决冷启动的问题。第二,在挖掘某用户或商品的评论集中,深度学习模型(RNN,CNN)虽然能很好的保留词序信息,但是将每个单词对评论特征提取的贡献视为同等重要,实际上如果能够加权每个单词的重要程度则能进一步提高推荐质量。第三,算法忽略了用户兴趣变化的时间特性。基于以上问题,本文提出了改进算法,具体工作如下:(1)针对传统协同过滤算法仅依靠用户评分数据的低维向量方法存在的推荐结果精确度低以及冷启动问题。本文提出一种新的动态混合推荐算法,将栈式降噪自动编码器融入到基于用户的协同过滤中,学习用户的深层次特征,并与基于用户项目属性偏好的相似度融合。在预测生成阶段,设置时间衰减项,动态预测访问概率,及时更新用户兴趣变化,从而提高推荐质量。在Movie Lens数据集上的实验结果表明,与UB-CF、AE、SDAE和SDAE-IA算法相比,该算法在准确率和召回率方面取得了较好的效果。(2)针对用户-兴趣点签到矩阵的高稀疏性问题和兴趣点评论文本重要度欠缺等问题。本文提出了Re Ge So模型。首先,利用预训练的BERT模型取代以往的词嵌入模型,直接将兴趣点评论信息送入到BERT模型得到每个评论信息的隐表达,采用双向LSTM并结合注意力机制来衡量每个单词对兴趣点评论文本挖掘的重要程度,使得模型可以较为准确的理解文本中的序列信息和情感趋向,并建模位置兴趣点的潜在因子。其次,在矩阵分解模型的基础上,融合位置兴趣点的用户社交信息和地理影响因子,将多源异构数据融入到统一的概率因子模型中求解,进而更加精准的挖掘用户兴趣偏好。实验结果表明,与没有使用双向LSTM注意力机制网络处理评论文本信息的算法相比,该算法推荐性能明显提高。本文共有图33个,表7个,参考文献88篇。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工厂 ,原文地址:https://m.bishedaima.com/lunwen/49206.html