7篇关于word2vec的计算机毕业论文

今天分享的是关于word2vec的7篇计算机毕业论文范文, 如果你的论文涉及到word2vec等主题,本文能够帮助到你

基于深度神经网络的搜索建议的设计与实现

这是一篇关于电商,推荐,word2vec的论文, 主要内容为当前主要的电商平台大规模应用推荐算法,并且在实施过程中取得了非常好的效果。因此,越来越多的电商平台,在推荐方面投入了很大的精力。令人振奋的是,在投入的同时也给平台带来了较高的收益,可以说投入获得了丰厚的回报。现在人们浏览电商平台的时间越来越多,那么向用户推荐用户所需求的商品,或者是让用户非常感兴趣的商品,成为了非常重要的是事情。本文中将使用word2vec算法生成文本推荐的模块,并且对skip-gram模型进行了改进,即中间层进行了一些适用于本推荐模块的改进。本文所实现的搜索建议的模块是搜索推荐的一个小的分支,通过推荐关键词模块,实现关键词加搜索词的组合搜索,相当于给用户一个指引推荐方向。在本文中,把搜索建议的模块统称为推荐模块。

财经领域事件抽取技术的研究与应用

这是一篇关于事件抽取,AC自动机,决策树,word2vec,模式匹配的论文, 主要内容为随着计算机的发展和互联网的日益普及,海量文本的出现极大地丰富了我们的信息来源。尤其在财经领域中,大量的财经新闻、公司公告、行业研报等非结构化文本的出现丰富了投资银行业与经纪业的信息来源。然而,这些文本的阅读和解析通常需要花费专业人士大量时间。从海量自由文本中自动抽取我们想要的数据成了当下急需解决的问题。信息抽取技术也成为了自然语言处理的重要研究领域。事件抽取是信息抽取领域的一个重要研究方向。事件抽取能从非结构化文本中抽取出用户感兴趣的事件信息,这样可以把自然语言表达的事件以结构化的形式抽取出来。因此,本文提出了财经领域的事件抽取技术。首先基于自由文本抽取算法,通过Python语言开发网络爬虫系统,并将该系统用于财经网站数据的采集与解析。然后基于所获取的文本数据,通过AC自动机、模式匹配等方法进行财经领域中的事件抽取。本文的主要研究内容如下:(1)基于聚类技术自动化抽取财经网站中的新闻正文。(2)通过句法依存识别主谓关系和动宾关系,获得事件句种子触发词。(3)使用新闻语料,通过开源的“结巴分词”工具将新闻分词,利用Word2vec进行训练生成词向量模型。通过词向量的相似性进行触发词聚类,获得本文中的不同事件类别的触发词,极大提升了触发词扩展的速度,减少了人工构建词典的工作。(4)针对事件抽取中非事件句比例高的问题,本文通过AC自动机算法,实现了通过触发词来对事件进行预分类。然后利用决策树算法对候选事件句进一步地分类处理,从而提高了事件分类的效率。(5)对于事件识别,通过模式识别进行事件元素的识别与抽取,其中针对不同的事件类型,本文提出了实体识别法、实体泛化法、实体结构法三种解决策略来进行模式匹配。为了提升分词效果,本文构建公司字典、政府部门字典、职位字典等相关字典,并成功将这些字典应用到分词器中。对于命名实体识别技术,本文首先通过哈工大社会计算与信息检索研究中心的LTP技术进行预处理,并通过实体字典进行二次识别,从而进一步提升命名实体识别的召回率。通过对实验结果地进一步分析,本文提出的事件抽取方法其准确率和召回率达到了业界较高水平,从而验证了所提出方法的有效性与可行性。本文提出的事件抽取技术已成功应用于“嗅金牛金融平台”的事件驱动模块与事件追踪模块,并得到了业界的一致好评。

基于SWC-WMD距离的非遗长文本聚类研究

这是一篇关于非物质文化遗产,word2vec,文本相似度,WMD,文本聚类的论文, 主要内容为我国的非物质文化遗产(简称“非遗”)在中华传统文化中扮演着十分重要的角色,是蕴含着各族人民智慧的宝贵知识。文本作为非遗知识的一种载体,有着记录方式简单,检索方便等优势。目前传统的非遗长文本之间大多缺乏有效的关联性,其中碎片化的数据较多,这一问题很大程度上限制了人们对于非遗知识的获取以及非遗文化的传播。目前的非遗垂直领域应用平台大多通过人工的方式去建立非遗长文本之间的关系,当文本数据量较大时,这种方式的成本会变得很高。本文对自然语言处理(Natural Language Processing,NLP)领域的文本相似度方法进行研究,对于其中的词移距离(Word Mover’s Distance,WMD)进行改进,进而得到SWC-WMD距离,并以此为核心建立了非遗长文本的聚类方法。这一方法后续可用于非遗平台的知识图谱、全文检索、相关推荐等功能的建立,这样可以提高非遗长文本之间的关联性,有利于非遗知识的传播与发展。在自然语言处理任务中,计算机需要对自然语言进行数字化。传统的文本表示方法存在语义缺失、稀疏矩阵等问题。本文通过引入word2vec词嵌入模型,基于它的预训练模型以迁移学习的方式对非遗语料进行训练,得到包含有非遗语义信息并且维度较低的稠密词向量,并通过词向量内部评估的相关性准则实验对生成的非遗词向量进行了有效性评估。WMD距离在对非遗长文本进行相似度计算时,单一地通过词频来计算词语的转移权重,忽略了不同类别词语对文本贡献度的不同,即无法体现出非遗词对非遗长文本的贡献度。SWC-WMD距离通过对于非遗词和其他词分别进行设置不同的权重,有效地提高了非遗词在文本中的贡献度;当WMD距离计算的文本中词语维度过高时,这一方法会耗时很久。SWC-WMD距离通过对非遗长文本中的特征词进行提取,最后通过计算特征词向量来得到非遗长文本间的距离,有效提高了 WMD距离计算非遗长文本相似度的效率。在本文构建的非遗长文本数据集上对WMD距离、SWC-WMD距离以及TF-IDF-WMD距离进行聚类实验,基于评价标准中的准确率和F1值,从特征词数量对聚类结果的影响、不同距离对于聚类结果的影响对实验结果进行评估。最终结果表明,相较于其他两个距离,SWC-WMD距离的非遗长文本聚类结果的准确率和F1值都有所提高,进而证明了本文方法的有效性。

网络靶场环境下的Web入侵检测技术研究

这是一篇关于网络靶场,Web入侵检测,SVM,SQL,XSS,word2vec的论文, 主要内容为随着互联网的迅猛发展,电商平台、社交网站和聊天软件等互联网产品给人们带来便利的同时,网络信息安全问题也日益突出。网络靶场作为一个网络攻防演练的模拟训练场,目的就是在攻防训练的过程中提高参与人员的攻防技能。通过研究和分析网络靶场训练时产生的攻防数据,可以快速有效的了解训练情况。为了检测和记录这些攻防数据,一般利用入侵检测技术来实现。而Web攻防作为其中重要的模块,研究其攻击和防御的方法,提高Web入侵检测的效率,可以切实提高训练人员的水平。该文以网络靶场环境下的Web入侵检测技术展开研究,分析了Web入侵的特征、方法、防御的手段,以及入侵检测技术的原理、流程以及特点,主要工作如下:1.针对人为提取特征需要大量的安全知识且提取的特征并不能完全表示攻击载荷的特征属性的问题,使用word2vec对SQL注入和XSS攻击的文本特征进行提取。首先通过统计和人工筛选的方法选取黑样本中的部分词作为攻击词表,然后使用word2vec对特征词进行训练,生成攻击语义模型。2.针对传统的特征匹配方法无法识别未知攻击的缺陷,利用机器学习对Web入侵行为进行分类检测。首先,利用训练好的词向量模型对SQL注入和XSS攻击进行向量化,然后使用SVM算法进行分类检测,对比了不同词向量维度和词表数量的检测效果。3.设计Web入侵检测仿真实验和在网络靶场中的应用实验,对比了利用SVM使用人为提取的特征和word2vec特征时,对不同攻击类型的分类效果。实验证明,本文使用的方法对于SQL注入和XSS攻击检测的准确率都能达到96%以上,且误报率较低。

基于表示学习的个性化推荐技术研究

这是一篇关于推荐系统,协同过滤,word2vec,艾宾浩斯遗忘曲线,注意力机制的论文, 主要内容为随着网络的迅速发展,信息资源与日俱增,出现信息过载问题。面对海量数据,用户很难发现自己感兴趣的信息,商家也难以提供合适的信息给相应的用户。推荐系统能有效缓解信息过载问题,为用户提供个性化推荐。然而,已有的推荐算法仍存在数据稀疏、信息利用不足、模型复杂度高、预测准确率低等一系列问题。数据决定了算法模型的上限,本文针对上述问题,利用表示学习自动学习数据的有效特征,获得更高效有意义的特征向量表示,并结合表示学习提出两个推荐模型,在真实数据集和原型系统上测试性能。本文主要研究内容如下:1.针对传统推荐算法使用独热编码和Hash编码表示用户和物品时存在的数据稀疏性问题和编码无实际含义问题,提出基于word2vec的深度神经网络协同推荐模型Profile DNN。模型通过word2vec从用户交互历史中学习获得维度较低且稠密的物品向量,物品向量之间的向量相似度可以体现物品之间相似程度。随后结合物品向量和用户历史偏好构建用户画像,利用深度神经网络学习用户和物品之间的高阶特征交互,实现评分预测,为用户提供个性化推荐。2.本文利用艾宾浩斯遗忘曲线特性,提出基于时间注意力的多任务矩阵分解推荐模型TAMMF。模型保留矩阵分解向量内积的再现推荐方式,采用注意力机制捕捉用户和物品的邻近信息,考虑用户偏好随时间改变的特点,借助艾宾浩斯遗忘曲线描述邻近信息的时间衰减特性。在训练过程中,模型引入强化学习的经验回放方式重复训练,模拟记忆时的复习过程。训练获得用户和物品的向量表示,易于再现推荐和模型部署,且拥有较高的预测准确率。3.以TAMMF作为核心推荐算法,搭建一个基于B/S架构的电影推荐系统。系统划分为展示层、逻辑层和数据层,分别负责用户注册登录、电影评分、个性化推荐等功能。系统以Spring Boot,My SQL,Mybatis-plus,Redis等为基础开发,使用JMeter对系统进行压力测试。

基于word2vec的推荐系统模型研究

这是一篇关于推荐系统,自然语言处理,word2vec,标签,辅助信息的论文, 主要内容为近年来,推荐系统在信息过载和信息检索中起着巨大的作用,并且广泛应用于电子商务,社交网站和新闻推荐等重要领域。但随着用户群的增多,信息过载,冷启动等问题越来越限制了这一领域的发展。随着深度学习技术在自然语言处理领域的研究越发深入,推荐算法逐渐依赖起了深度学习技术。依靠深度学习,挖掘文本内部的关系,成为了社会研究的热点。目前在深度学习的文本提取领域和推荐算法领域还存在很多的问题,比如特征提取无法挖掘事物更深层次联系,模型逻辑关系弱且对很多结果缺乏必要的解释,推荐算法查准率查全率低等问题。本文主要研究了深度学习在自然语言处理中的应用与推荐算法相关的技术,本文认为传统的二部图推荐模型只考虑了用户和物品的历史交互行为。为了提供更加准确、多样和可解释的推荐,需要在用户-物品交互式建模的基础上充分考虑标签辅助信息及权值的计算方式。本文的主要工作如下:1.分析了主流的信息提取方法在自然语言处理领域的作用,其基本分类有:RNN、CNN、和词向量空间。本文设计了一种新的注意力机制,其思想是利用限制函数进行更有目的的特征提取。接下来将该机制应用于目前最新的词向量模型提取模型word2vec。训练出可以表示用户偏好的词向量。2.本文提出了基于自然语言处理的标签相似性辅助边优化的推荐算法(LWV)。该方法结合用户历史行为和标签辅助信息,通过word2vec在节点间生成新用于节点交互的边并构建边的权重,来更新基础推荐算法的推荐列表。最后在公开数据集上对本算法与基准算法在六个公共评测标准上进行了对比,实验结果表明,LWV更新过的推荐算法相比原算法在准确性、多样性和新颖性方面均能取得更好的结果。