融合多特征的弹幕视频推荐算法的研究与实现
这是一篇关于弹幕文本,视频推荐,Bert,CNN,情绪分类的论文, 主要内容为随着移动互联网的高速发展,人们也逐步由信息获取困难转变为信息过载,为了方便人们高效的获取有用信息,推荐算法应运而生。视频推荐系统作为视频平台的标准配置已广泛应用,但仍存在以下问题:视频特征未能全面的提取,例如评论,标题,简介;弹幕文本信息未得到充分利用并融入视频推荐中;视频内容与用户的兴趣喜好关联计算不足等影响推荐效果。本文针对视频推荐中存在的问题提出了融合多特征的弹幕视频推荐算法,主要研究工作如下:(1)为从视频界面中抽取与视频内容强相关的文字信息,本文利用视频主页下方的标签信息,通过LDA主题模型训练得到主题分布向量,再对视频的标题和描述(简称视频简介)使用Doc2vec得到视频内容简介的句向量,通过这两种方法提取到视频界面的文本信息。(2)对弹幕进行情绪分类,提出基于Bert_Bi LSTM_CNN的弹幕评论情绪分类算法。该算法采用Bert预训练语言模型与循环卷积神经网络Bi LSTM_CNN充分提取弹幕文本信息和句子语义特征,通过Softmax函数得出弹幕文本的情绪分类,分类精度达到84.6%,相较比传统的模型准确率得到显著提升,通过该方法得出每个视频的弹幕情绪向量。(3)基于情绪向量、内容简介和标签主题加权融合得到视频间的综合相似度,再使用采用层次分析法对用户历史播放记录计算出衰减权重,并与综合相似度乘积运算,得出用户对该视频的综合喜好度,通过视频主页的播放指标得到视频的观众流行度,与综合喜好度计算相乘得出推荐值。本文将视频的多种相关特征进行信息提取并融入推荐算法中。实验结果表明,与融合协同过滤和主题模型的弹幕视频推荐算法(DRCFT)和嵌入LDA主题模型的协同过滤算法(ULR-item CF)相比,本文算法准确度平均高出12.1%,提升效果明显。
基于图卷积神经网络的暗网分类算法研究
这是一篇关于暗网,文本图,句法依赖,图卷积神经网络,Bert的论文, 主要内容为互联网可以分为明网和深网,暗网是深网的一个子集,建立的目的是为了保护通信双方的隐私,但由于其极高的匿名性,暗网中的违法犯罪活动不断滋生壮大,开始给公民的生活带来困扰。因此,收集和研究暗网中的违法犯罪活动可以帮助公民更深入地了解暗网,具有重要的现实意义。由于暗网相较于普通网页存在篇幅较短的特征,目前对暗网的分类研究都聚焦于关键词和网页图像分类上,没有较多地利用文本中存在的句法依赖信息。图神经网络能够较好地保留图数据中的全局结构信息,通过图引入句法依赖信息,丰富暗网文本的特征表示。针对暗网文本特征稀疏的问题,本文以基于Tor的暗网作为研究对象,提出了基于Bi-LSTM和Bert的图卷积神经网络分类方法,主要工作如下:(1)本文对Tor匿名系统的基本通信原理和隐藏服务机制做了详细介绍,整理归纳国内外暗网的收集发现与分类的研究成果,为本文后续工作提供了有效的帮助。(2)提出了基于Tor2Web和深层网络发现并爬取暗网网页的方法,扩大了爬取的范围。同时,利用python,scrapy框架以及Sqlite数据库实现对暗网网页的爬取,构建了暗网文本数据集,为后续对暗网进行分类提供数据基础。(3)针对图卷积神经网络的构图方法提出了一种新的融合图,为了同时获取文本中的序列特征信息和单词之间的句法依赖信息,为每个暗网网页单独构建文本序列图和句法依赖图。然后,融合两种图的信息,生成最终代表文本的融合图。根据不同的构图方式以及构建不同类型的图进行分类实验,验证了构建多种类型图的有效性。(4)基于Bi-LSTM的图卷积神经网络分类模型。本文通过构建文本图获取文本信息中的序列信息和单词之间的句法信息,同时,利用Bi-LSTM获取文本中的上下文语义信息结合图卷积神经网络对图中初始化后的单词节点进行更新表示,在开源的英文数据集以及本文构建的暗网文本数据集中进行了对比实验,验证了本文提出方法的有效性与广泛性。(5)基于Bert的图卷积神经网络分类模型。本文通过利用Bert模型对暗网网页文本语料库进行预训练,获取文本中深层次的上下文语义信息,作为文本图中单词节点的初始向量,其次利用图卷积神经网络实现图分类任务,通过与基线模型的对比验证了本文提出的方法的有效性。
基于知识图谱的羊群疾病问答系统的研究与实现
这是一篇关于疾病诊断,知识图谱,问答系统,Neo4j,Bert的论文, 主要内容为随着信息时代的高速发展,网络中产生了大量繁杂冗余的数据,给检索带来了困难。问答系统的出现解决了这一问题,使用户可以更加准确且快捷地检索到满意的答案。问答系统广泛应用于人类医疗健康领域,但关于动物医疗领域的研究甚少。动物出现不适状况时,由于没有合适的疾病查询方式,会导致死亡率显著偏高。兽医治疗虽然可以解决病症,但频繁地求医会增大医疗资源的压力。基于这一现状,本文研究出一款基于知识图谱的羊群疾病问答系统,可以更方便、快速地查询和诊断羊群疾病。本文通过以下三个步骤来实现问答系统的搭建:(1)羊群疾病知识图谱的构建。本文采用爬虫方式获取“医链”网站的文本信息,人工提取出疾病实体和属性;然后,采用人工筛选方式将重复或语义相近的词语进行数据融合;最后,将数据以三元组的方式进行汇总,并保存到Neo4j图数据库中。为了提高实体标注效率,本文重点通过“知网”查找以“羊病”为关键词的中文文献的摘要部分,使用Bi-LSTM+CRF模型自动抽取实体,并将获取的数据补充到Neo4j中。(2)羊群疾病问答系统算法设计和实现。针对命名实体识别部分,本文采用Bi-LSTM模型作为基础,通过添加Attention机制为词语分配权重,使得每个词依赖于全文。然后,使用CRF模型提出的BIO规则进行实体标注。这种机制得到的F1值为83.16%,极大提高了实体标注的效率。针对属性映射部分,本文构建了Bert-softmax模型。根据用户提问,首先通过Bert模型计算问句和属性的语义相似度,确定用户意图;然后通过softmax算法进行归一化处理;最后,找到最合适的答案反馈给用户,提高系统的问答效率。(3)羊群疾病诊断平台的实现。该平台使用Bootstrap、Echarts、Vue组件实现羊群疾病问答系统的可视化。利用Python语言包含的flask框架搭建后台,封装疾病信息。该平台通过web前端呈现给用户,并与后端建立连接,实现了数据之间的交互。综上,本文通过使用机器学习算法提高了羊群疾病知识图谱的构建质量,并将其作为基础构建了羊群疾病问答系统。同时,使用深度学习算法提高了系统对问句的判断能力,为羊群疾病诊断提供了一个实时查询平台。
基于生成对抗网络的序列推荐的研究
这是一篇关于序列推荐,生成对抗网络模型,Bert,多头自注意力机制,协同过滤的论文, 主要内容为目前,推荐系统的应用范围越来越广泛,已经成为电商平台、视频播放平台、娱乐社交等平台的基础设施。序列推荐是推荐系统的一个分支,能够从用户与项的信息中挖掘隐含信息并建立用户交互的依赖关系模型。隐含信息包括各个项之间的联系、用户的偏好以及偏好的变化、商品的流行度变化等。依赖关系是指用户在不同时刻交互的产品之间存在联系,例如交易序列中的商品之间存在顺序依赖关系。序列推荐中存在许多问题,如序列数据的稀疏问题、长期依赖的挖掘问题等。针对这些问题,本文对序列推荐进行深入研究,提出了两个算法,并使用真实数据进行实验。本文的主要研究工作如下:(1)针对序列推荐的数据稀疏性问题,本文首次提出基于生成对抗网络的协同过滤算法。该算法将用户的序列数据使用向量表示,从向量中学习隐式反馈信息。在生成对抗网络模型中,生成器学习用户与项的特征并生成虚假的用户交互数据,判别器判别真实数据与生成数据,并将结果反馈给生成器,指导生成器的更新。该算法学习序列的潜在信息,并使用学习到的用户与项的特征解决序列数据的稀疏性问题。生成对抗网络模型容易产生模式崩溃问题,模式崩溃是指生成器仅学习真实数据的某一分布特征并以此生成数据骗过判别器,从而导致模型的损失值震荡太小,推荐的精确率无法提升,影响数据稀疏性问题的解决性能。本文使用权重截断和增加梯度惩罚项的方法对算法进行改进,权重截断能够改善训练过程中的梯度消失问题,但是会造成权重两极化现象,导致训练不稳定,收敛速度慢。据此本文为判别器的损失函数添加了梯度惩罚项,满足了判别器梯度的Lipschitz限制。实验结果表明该算法能够解决序列推荐的数据稀疏性问题,模型的精确率同比神经协同过滤算法提高了 61.1%。(2)针对序列推荐的长期依赖的挖掘问题,本文提出了嵌入双向编码表示的生成对抗网络算法。该算法使用双向编码表示模型解读用户与项的二元关系序列,并使用生成对抗网络模型的对抗训练生成更多与真实数据分布相似的样本数据对模型的学习进行指导,得到更好的结果。算法包括三个步骤,首先本文使用双向编码表示模型解读序列数据,其中双向模型能够考虑序列中任意项的上下文信息,多头自注意力机制能够捕捉任意项与其上下文之间的依赖关系,将捕获内容进行编码,并从中提取特征。然后根据用户与项的特征训练生成对抗网络模型,使得其生成器能够生成近似真实数据分布的样本,再使用判别器对真实数据与生成数据进行判别,并将结果反馈给生成器。最后,本文使用基于生成对抗网络的协同过滤算法的训练结果,将其使用嵌入双向编码表示的生成对抗网络算法进行实验,实验结果表明嵌入双向编码表示的生成对抗网络算法同时也能够解决序列推荐的数据稀疏性问题。该算法在真实数据集上进行实验,NDCG@10最高达到93.0%。
基于命名实体识别和语义相似度计算的人才评价系统的设计与实现
这是一篇关于人才评价,命名实体识别,语义相似度计算,Bert,微服务的论文, 主要内容为对于国家来说,发展需要人才的支撑,而培养人才需要消耗大量的时间和资源,为节省人才培养成本,我国政府提出了一系列人才引进政策。因此,如何根据这些政策建立起科学、公正、高效的人才评价系统则变得至关重要。目前,我国各地区建立的人才评价体系主观性过强,评价效率低下,无法对人才信息进行有效的分类。为提高人才评价的效率和准确性,本文基于命名实体识别和语义相似度计算技术改进现有的人才信息解析和评估方式,结合微服务框架搭建人才评价系统,实现对人才信息的自动化评估。本文的主要工作如下:(1)通过梳理国家和浙江省政府的人才引进政策,结合国家高级工程师任职资格量化评价标准对人才信息进行评估和量化,设计了一套人才类型和分值评价模型;结合前后端分离的微服务框架设计出系统的软件方案。(2)针对人才信息量大、文本序列过长导致人才信息难以进行评估的问题,采用融合双向长短记忆网络和条件随机场的命名实体识别技术对人才的文本数据进行识别和抽取,并按照人才类型评价流程将人才数据划分为九种类型的实体标签,进而实现对人才信息的分类。(3)针对人才和分值标签匹配不准确的问题,通过分析人才标签和分值标签的文本特征,使用基于深度学习的语义相似度计算方法,加入Bi LSTM网络和注意力机制改进Bert模型,设计和实现了人才标签分值计算模块。(4)搭建人才评价系统,通过人才评价流程和人才类别划分系统模块,采用微服务架构,利用Mysql+Neo4j+Mongo DB数据库设计完成了人才评价系统,实现系统测试和验证。研究结果表明,本文提出的人才评价量化方案降低了人才评估的难度,提高了人才评估的效率和准确性;采用前后端分离的微服务架构进行设计与实现人才评价系统,能够满足系统可扩展性和易维护行的需求;此外,融合双向长短记忆网络和条件随机场的命名实体识别模型,实现了对人才信息的预处理,提高了人才评价的速度;改进后的Bert模型解决了Bert模型词向量分布不均匀以及无法关注重点语义信息的问题,提高了文本匹配的准确性。
新闻文本结构化数据识别技术研究及其在质监新闻关键信息提取中的应用
这是一篇关于关键句提取,TextRank,TF-IDF,知识图谱,Bert,Seq2Seq的论文, 主要内容为上海市质量监督检验技术研究院需要获得全国各省市消费品质量抽查结果中的抽查商品名称、属性、合格批次等关键信息,这些信息发布在各地的质监新闻网站上,每篇新闻对一次质监抽查行动进行了详细的描述,叙述性的记录形式使得每篇新闻篇幅较长,涵盖了诸如质检人员介绍,商品价格,违规处理意见等需求外的信息,并且上述新闻文本没有一个统一的行文规范,上海市质量监督检验技术研究院每周需要派人对新增的新闻通告进行逐一地阅读统计,存在大量繁琐的重复劳动,针对上述情况,本文设计开发了一个关键信息提取系统来解决这个问题。在开发关键信息提取系统来解决质监新闻中关键信息提取的需求时,本文完成了如下的工作:(1)通过网络爬虫爬取全国各地质监新闻网的新闻文本数据进行关键信息提取工作的研究。(2)在数据预处理阶段,使用关键句提取技术聚焦质监新闻文本关键信息,缩减语料库。通过实验对比了基于Text Rank算法和基于深度学习模型的关键句提取技术在质监新闻文本中的表现,最终选择了Text Rank算法的输出作为数据预处理的结果。(3)在关键信息提取算法的选择中,通过实验对比了基于TF-IDF、基于Text Rank、以及知识图谱和深度学习结合的方式在质监新闻文本中的表现,最终选择了知识图谱和深度学习结合的方式作为关键信息提取系统的核心算法。(4)通过系统分析与架构设计,使用vue,layui等前端技术以及C#,python等后端技术开发了质监新闻关键信息提取系统,实现了质监新闻自动爬取、质监新闻关键句提取、质监新闻关键信息提取、数据查询与可视化等功能,通过上述系统解决上海市质量监督检验技术研究院信息提取的需求。本文研究结果及开发的系统已在上海市质量监督检验技术研究院投入使用,通过关键信息提取系统很好的解决了原先人工提取的不足,提高了工作效率。
基于图神经网络的增强实体和关系的联合抽取研究
这是一篇关于关系抽取,Bert,实体标记,实体关系联合抽取,序列标注的论文, 主要内容为关系抽取旨在从非结构化的文本信息中识别出文本实体的目标关系,是构建知识图谱的重要技术环节,也可以为搜索引擎、问答系统等下游任务提供支撑,具有重要的研究意义。目前基于深度学习的关系抽取技术在提取实体前未能很好地融合实体和关系信息,并存在实体语义表示模糊问题。为此,本文开展了基于图神经网络的增强实体和关系的联合抽取研究,主要研究内容如下:(1)针对以往的关系抽取模型在表达实体语义时存在模糊问题,未能很好的突出实体的语义信息与实体之间的上下文信息,本文以Bert和Bi LSTM为基础编码器模型,构造了一个新颖的模型结构,采用实体标记和跨度截取方法增强了实体语义信息。首先,采用实体标记技术使得模型能高效的区分实体位置,提高模型对实体的关注度,同时使模型降低无关词的干扰。其次,使用跨度截取方式获取实体的语义向量并结合编码器头节点联合丰富上下文语义信息,最后通过池化层和分类层获得分类结果。所提出的模型在Sem Eval 2010 Task8数据集上进行实验并获得了89.41%的F1值,较传统模型有显著提升,实验证明了该方法是有效的,能够提升关系抽取的准确率。(2)针对目前现有的实体关系联合抽取模型,在提取实体之前未能很好的融合实体和关系信息,实体模型和关系模型都是以单独的形式存在并输入模型中,忽略了实体和关系之间的隐藏联系。本文采用Bert和Bi LSTM作为基础模型,实体模型和关系模型通过Bert编码器和参数共享方式输入到GAT中,用实体和关系作为图的节点,使全部实体节点融入关系中,全部关系融入到实体中,通过这种迭代融合的方式互相增强语义信息。采用序列标注方法标记实体的开始位置和结束位置,最后计算两个实体和关系的相关性确定三元组。实验在Sem Eval 2010 Task8、NYT、Web NLG三个数据集下进行实验并获得了90.20%、91.92%、92.27%的F1值,与其它改进的模型相比准确率有明显提升,验证了该模型具有更好的性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码货栈 ,原文地址:https://m.bishedaima.com/lunwen/47936.html