基于神经网络的Android应用分类方法研究与应用
这是一篇关于Android应用,神经网络,性质分类,功能分类,自然语言处理的论文, 主要内容为随着互联网技术与移动智能设备的不断发展,科技不断融入人们生活的各个角落。Android系统一直在移动智能终端领域占有一席之地,越来越多的Android应用也应运而生。用户在享受Android应用带来便利的同时,也面临着很多问题。首先,许多恶意软件的出现对Android用户的隐私和财产安全带来威胁。此外,如果未对Android应用进行正确的功能分类,则用户在不知道具体应用名字的情况下,很难在海量Android应用中找到自己所需类别的Android应用。如何高效的管理大量Android应用,构建良好的Android生态环境,是当前需要研究解决的重要问题。本课题通过分别构建基于神经网络的Android应用性质分类模型和Android应用功能分类模型,并在此基础上设计实现了 Android应用分类系统,解决了 Android应用的性质和功能的分类问题。针对Android应用的性质分类问题,本课题收集了 6120个Android恶意应用和5513个Android良性应用,作为Android应用性质分类的样本。本课题独创性地研究并验证了良性与恶意Android样本的四大组件数量差异,将其作为构建Android应用性质分类模型的特征之一,构建了基于神经网络的Android应用性质分类模型,达到了 99.7%的准确率。针对Android应用的功能分类问题,本课题对不同功能的Android应用样本进行深入研究。本课题收集了 13种,共5103个Android应用安装包及应用介绍,作为功能分类的实验样本。本课题独创性地将Android应用的应用介绍和字符串资源整合为样本的描述信息,基于自然语言处理技术对Android应用样本进行特征处理,构建基于神经网络的分类模型,并通过集成学习改进模型性能,达到了87.2%的准确率。此外,本课题独创性地构建了 Android应用描述词云图,完成Android应用功能分类的可视化辅助展示。在此基础上,本课题为满足Android应用分类预测的可视化操作需求,开发了基于B/S架构的Android应用分类系统,有效提供了可视化程度高、交互友好的Android应用分类服务。
智能问答系统的关键技术研究
这是一篇关于问答系统,自然语言处理,知识图谱,神经网络的论文, 主要内容为近年来,网络巨大的信息承载能力,给人们带来了大数据时代,人们学习与检索信息的方式也随之发生了重大转变。在以往的方式中,人们通常使用百度,谷歌等经典的搜索引擎进行检索信息。但是这种检索方式大多利用关键词检索,返回大量的词汇相关网页,需要进一步进行人工筛选。而人们更希望的方式则是使用自然语言进行提问,机器直接返回简洁的、能理解的答案。自然语言处理是人工智能领域的重要研究方向,词法语法分析等语言学技术,统计学习技术被相继提出,其主要目的就是为了解决人类与机器之间的信息语义鸿沟。问答任务作为自然语言处理的重要课题,一直备受人们的关注。最近,深度学习技术的出现,给自然语言处理研究带来了新的前景。自然语言问答任务的最新研究成果也大多基于神经网络的。根据知识源的不同,问答系统可以分为基于纯文本的问答任务与基于知识图谱的问答任务两种方式,本文将分别展开研究。针对纯文本问答任务,本文提出了基于信息丢弃机制的局部推理模型。在纯文本问答中,由于文本上下文很长,包含线索与证据数量较多。通过对数据集的研究可以发现,并不是所有的线索信息都可以对提取答案起正面作用,一些多余的信息可能会干扰最后的信息推理。而以往的模型通常将全部的文本信息进行融合处理,从而可能导致错误。本文提出的语义信息丢弃机制,可以筛选出有效的语义向量,丢弃与问题关联度较小的干扰信息。这种局部推理模型可以有效提升预测答案的准确率,在开放式问答数据集上的结果证明,该模型均优于基准模型。知识图谱问答任务的特点是,知识资源结构化明显,信息证据简单,通常都是由一些简单问句进行提问的。我们通过一种流水线的方式进行处理,选出问题的主语实体和谓语关系,然后通过信息整合方式选出最有可能的答案实体。本文主要针对其中的关系抽取任务进行改进。我们发现在以往的信息处理模型中,神经模型通常只利用问题语句进行关系分类。但这种问题句往往缺乏上下文,很难充分利用神经网络的计算能力。为了解决这个问题,本文利用语句主题词和实体背景信息作为辅助推理信息,使得问题获得充分的上下文背景。我们利用两种注意力机制模型,将辅助信息与问题进行语义匹配融合。在数据集上的实验结果证明,我们的模型可以有效提升关系抽取准确率,有效并提升最终问答的准确率。
基于分布式爬虫的用户评论分析系统
这是一篇关于神经网络,用户评论,Tensorflow,TF-IDF,爬虫,自然语言处理的论文, 主要内容为随着移动互联网和网络带宽的高速发展,多媒体已经走进了千家万户,丰富了人们的精神生活。视频的发展也从逐渐从PC端转移到了移动端,人们和视频的交互方式也产生了翻天覆地的变化。本论文主要从用户评论的采集和分类这两个部分对视频评论开展研究。由于每天网站上出现的以视频评论数量为主的用户评论呈指数级增长,而目前用户评论数据采集没有一套完整的分布式爬虫系统架构,因此本文构建了一套基于分布式爬虫的视频弹幕爬取系统。首先根据海量评论数据的需求特点设计了主控爬虫以及日志模块,日志模块用于爬虫系统的调试以及数据恢复工作,主控爬虫则负责任务的调动以及整个爬虫系统的状态监控。接着分别根据数据采集的需求,分别设计了剧集爬虫、单集爬虫、评论爬虫,为后面的用户评论分类打下坚实的基础。此外,本文进一步针对评论的用户情感分类进一步实现了用户评论分析系统,该系统对爬取的评论进行分析、预处理、主题词提取、词向量化、情感分类的工作,实现了对评论的用户情感分析。在用户评论预处理方面,本文采用了jieb分词包对用户评论进行了分词,并过滤了相应的停用词。接着通过TF-IDF对用户评论的主题词进行了提取,借此来显示每个评论的核心主题。然后通过对用户评论的词向量化实现用户评论分类系统的分类。词向量化模型首先通过嵌入层将用户评论映射成相应的词向量,以及构建针对用户评论的分类网络,该网络主要包含平坦层、隐藏层、输出层。根据实验结果显示,本系统所使用的方法能够有效的学习用户评论中有效的特征信息,从而对相应的用户情感分类起到良好的分类作用,相对传统系统准确率至少提升了7.11%,达到了82.79%。
Research on Relation Extraction Based on Deep Neural Networks
这是一篇关于深度学习,自然语言处理,关系抽取,注意力机制的论文, 主要内容为在信息时代,每天都会产生大量的文本信息。信息抽取在自然语言处理领域发挥着越来越重要的作用。然而完成信息抽取任务则需要多个子任务之间的相互合作,分别为实体识别与抽取,实体消岐,关系抽取,事件抽取。关系抽取作为信息抽取的重要研究课题,是知识图谱构建和完成过程中的关键步骤。最初,关系抽取任务是通过传统的机器学习方法来完成的,这些方法非常依赖于人工制作的相关特征,这就意味着需要大量的人力资源与时间消耗,为了摆脱密集型的劳动任务,并且随着深度学习的相关发展,越来越多的学者将深度学习方法应用在关系抽取任务上。同时通过将图像处理、语音处理等领域的算法与关系抽取任务相结合,取得了丰硕的研究成果。本文通过总结现有关系抽取模型,并在此基础上,针对关系抽取的任务和对关系抽取模型的理解,提出了关系抽取模型应具有识别实体对和句子整体高级语义的能力。在一个训练完好的模型中,模型应该能够识别包含实体的句子中实体关系的能力,但是如果在句子中仅包含实体信息,其他信息不完善的情况下,模型的识别能力就会有相应的减弱,这就说明模型对于实体语义信息的理解能力和重视程度有所缺乏。同样的在句子缺乏实体,仅包含实体之外的相关信息时,模型仅仅依靠实体之外的信息完成关系抽取的任务的能力也会有所减弱。这就说明在一个完善的关系抽取模型中,能够理解实体的语义信息和句子结构信息,句子语义信息是必不可少的。通过对关系抽取的数据来源与抽取模型的不同,目前的工作通常被分类为全监督的关系抽取,远程监督的关系抽取,基于开放域的关系抽取和实体关系联合抽取。在全监督的关系抽取领域,Att+BiLSTM模型就是其中一项较为突破性的工作。通过注意力机制应用在双向长短时记忆网络(BiLSTM)中,结合BiLSTM能够获取长句子中长距离依信息的能力并且双向的设计能够更好地增强从后到前的信息,更加适合关系抽取中实体的方向性特点,注意力机制中获得重要单词以及句子的高级语义的能力,在没有额外的人工特征的情况下在SemEva12010-Task8数据集上取得了优秀成绩。但是整体的注意力机制获取的是每个词对应整个句子的关注程度,并没有将重点放在关系抽取任务中必不可少的实体部分,缺少对实体语义的相对重视。同时,在句子中的非实体部分的某些具有决定句子高级语义的关键词也没有更好地去识别和提取高级语义。因此本文根据关系抽取应具备的相关能力、以及现有注意力机制的不足,提出了相应的方法来提高关系抽取模型完成任务的能力。(1)在传统的关系抽取模型中,为了增加模型识别实体的能力,通常做法是通过在映射层位置指示器(PI)来指明实体位置。但是这样的做法会导致数据在通过神经网络之后位置信息被削减,从而降低了模型对实体对的理解能力。为了解决这个问题,针对加强模型理解实体对语义的能力,提出了一种基于实体注意的关系抽取模型。该模型利用增加实体注意力的方法来增强模型对于实体位置的认知,进而增加模型对Entity pair高级语义的重视程度。首先,使用BiLSTM来建模实体的语言上下文。其次,通过将实体位置信息添加到整体语言上下文中,分别根据每个实体来构建实体注意力。增加的实体注意力机制相对于在训练神经网络之前加入位置指示器的方法更加能够让注意力的权重放在实体位置进而增加了模型对于实体语义的理解。通过相加的方法将两个实体的注意力结合,以此来增加模型对每个实体高级语义以及位置信息的理解。然后,使用softmax将不同实体相关特征的计算结果规范化为所有语义关系的概率。最后,采用梯度下降算法对模型参数进行优化。实验结果表明,实体注意力模型在使用相同的数据集以及没有使用额外人工特征的情况下,相对于传统结合注意力的BiLSTM模型在关系抽取任务数据集SemEval-2010Task8上具有更好地表现。(2)为了增加模型对句子中除了实体之外的其他信息的高级语义的理解,同时解决实体注意力中对句子其他信息缺少进一步利用的问题,在基于实体注意力的基础上,提出了一种新的句子注意力机制。在该模型中,句子中的实体部分被空白部分替换,通过这样的操作让句子失去实体对,从而强迫模型学习句子中的非实体部分,增加模型对句子中其他信息的高级语义的理解。并且为了更好地将实体注意力与句子注意力进行结合,改进了注意力层的多种注意力的结合方式。最终通过对比实验,证明句子注意和实体注意的结合能更好地提高模型完成关系抽取任务的能力。
基于知识图谱的电网科技资源智能推存算法研究
这是一篇关于知识图谱,自然语言处理,推荐系统,电网科技文本,文本分类的论文, 主要内容为随着电网领域科技投入逐年增加,电网企业积累了海量科技资源,所蕴含的知识价值迫切需要得到挖掘利用,从中检索推荐用户感兴趣的科技资源就是知识管理的重要应用之一。本文就基于知识图谱的电网科技资源智能推荐算法进行研究,对于提高电网科技管理水平具有重要意义。为了构建多来源电网科技资源文本语料库,收集了包括电网科技论文、专利、项目以及领域知识在内的多种数据,为了提高模型对电网科技专业术语的处理能力,提出了基于预训练精调的电网科技术语分类模型,构建了专业术语词汇表,模型采用MacBERT作为语言模型,深度神经网络作为精调分类模型,达到了良好的领域文本处理效果;研究构建了电网科技知识图谱,提出电网科技关键词抽取、领域多标签分类模型,以知识图谱的形式描述电网科技成果、成果关键词、所属领域等实体及其关系,其中关键词采用改进TextRank算法从电网科技资源文本中进行提取,算法充分考虑了词位置、频率和语义信息的影响,并利用LDA主题模型融入文档本身及语料库主题信息,构建多标签分类模型进行领域分配,更好地丰富电网科技知识图谱语义;提出基于TransD+RW的推荐算法,算法充分利用电网科技知识图谱结构信息,从电网科技知识图谱中学习知识表示,以成果资源关键词、所属领域作为推荐依据,与传统基于内容的推荐算法相比,获得了更好的电网科技关键词区分度,因而具有更好的推荐效果。论文按照数据收集、知识图谱建模、智能推荐算法构建的知识管理流程,运用自然语言处理、机器学习等模型方法,实现了基于知识图谱的电网科技资源智能推荐算法构建与验证,为电网科技知识管理提供参考借鉴。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://m.bishedaima.com/lunwen/46134.html