给大家分享8篇关于特征抽取的计算机专业论文

今天分享的是关于特征抽取的8篇计算机毕业论文范文, 如果你的论文涉及到特征抽取等主题,本文能够帮助到你

基于时效标签与内容特征的服务推荐方法研究

这是一篇关于特征抽取,知识图谱,协同过滤,时效性,词距离的论文, 主要内容为当今世界正处于移动互联网时代,各种移动互联网技术日新月异,也促使了智能手机及其相关领域的高速发展,移动应用(Mobile Application,MA)领域是其中最为蓬勃繁荣的一部分。截止至2020年7月,仅仅我国的上架移动应用就超过了357万款,用户数量超过了8.3亿。在如此庞大的市场和用户规模面前,想要精准地为用户推荐适合的移动应用是很困难的。首先,针对移动应用的推荐大部分是基于用户对移动应用的历史评分,然而在现实情况下,很大一部分用户的历史评分项目有限,由此情况导致推荐系统在向该用户推荐其他种类移动应用时很困难;其次,最新出现的移动应用会因缺乏大量用户历史行为数据,而无法有效地被推荐。本文针对以上新应用历史数据及评分数据稀疏问题和项目冷启动的问题对推荐系统进行了改进,主要介绍了三个方面的研究内容:基于内容特征抽取的混合推荐方法、融合知识图谱的推荐方法、基于时效标签与内容特征的服务推荐方法。具体研究内容如下:(1)本文提出了一种基于内容特征抽取的混合推荐方法来解决传统协同过滤算法难以应对的物品冷启动问题。该方法首先通过分词、词性标注、依存句法分析等NLP技术提取服务内容特征,提升了描述物品属性的准确性和计算物品相似度方法的合理性。然后利用Bert模型对内容特征文本进行向量化,并采用改进的加权词距离TFIDF-WMD算法计算移动应用服务的相似度,最后结合基于物品的协同过滤推荐算法完成推荐。该方法使冷启动问题得到了缓解,推荐精度也得到了显著提高。(2)针对推荐方法中,基于内容推荐方法往往只能对相似种类的项目进行推荐的局限性问题,本文在完成研究内容(1)的基础上,提出了一种融合知识图谱的推荐算法。根据现有的项目特征,结合知识图谱的网络结构关联所有的项目特征,融合并补全知识图谱以避免数据稀疏的问题。将基于项目向量的相似度与基于知识图谱的项目相似度进行融合,由此能更充分利用项目本身的信息,提高了推荐结果的可解释性。(3)针对用户对项目评分数据稀疏的问题与评分时效性的问题,提出了一种考虑时间因素的标签聚类推荐算法。该方法首先利用考虑评分时效性与标签时效性,同时又考虑了用户评分惯性因素,最终得出时间加权的相似度;其次,将项目标签库中的标签进行聚类。最后,基于标签聚类结果预测同聚类下待评分项目的评分,并通过实验证明了该方法在解决数据稀疏性问题上的有效性。根据实验结果可以看出,本文所提出的基于时效标签与内容特征的服务推荐方法,解决了传统协同过滤推荐方法中存在的问题,并能为新用户推荐有用的项目,综合提高了推荐的准确性。

句子级情感倾向性分析与研究

这是一篇关于情感倾向性分析,句法关系,机器学习,情感词典,特征抽取的论文, 主要内容为随着互联网2.0时代的到来,使得网络信息以近乎爆炸的速度进行增长。面对数量如此众多的信息,如何能够快速判断其中的正负情感意图,进而帮助用户、企业和政府做出决策判断呢?本文针对于此问题,研究了文本情感分析体系的分支,即句子级的情感倾向性分析。首先,调查和分析了情感倾向性的研究现状,并在此基础上构建了情感倾向判断的基线系统。明确了本课题中情感倾向性的研究边界和目标,调研了国内外情感倾向性分析的主流方法,确定了一般情感倾向性分析系统所需要的处理过程和方法。重点调研了句子级情感倾向性分析的3种技术：词典法、句法结构方法和机器学习算法。其次,提出了基于三重句法结构的句子级情感倾向性算法。这是隶属于句法结构的算法,在词典法的基础上引入了句间元素的依存修饰关系,并根据关系的远近进行了三个层次的分类。同时,引入树形的句子表示结构。最终结合了树形表示结构和三层句法结构确定了计算顺序。然后,基于三重句法结构算法,提出并实现了用以处理中文语料的情感倾向性判断方法。在观察大量的中文文本后抽象出主要的中文句法关系,并根据关系的递进关系进行了层次划分。根据算法构建模型,结合实验的数据效果与词典方法和分类算法进行了比较。明确了算法的特点和优劣势。另外,基于三重句法结构算法,提出并实现了用以处理英文在线评论的情感倾向性判断方法。设计了英文在线评论摘要系统,该系统完成对英文在线电商网站的评论信息的情感分析。结合网页信息爬取和解析、通用和属性词典建立、产品属性的抽取以及情感分析算法,并根据英文语法的关系对算法模型进行了调整和适配,最终得到情感分析结果。最后,对算法进行总结,并指出可以改进的地方,对算法的未来进行了展望。

基于时效标签与内容特征的服务推荐方法研究

基于WDL模型的个性化推荐系统设计与实现

这是一篇关于Spark平台,特征抽取,逻辑回归模型,WDL模型,AB测试的论文, 主要内容为随着信息技术的蓬勃发展,加上互联网产品的层出不穷,人们制造和传递信息变得更加简单,造就了信息爆炸的时代。在这个时代,人们被海洋一般的信息淹没,为了便于找到感兴趣的信息,推荐系统应运而生。在小米手机上有个小爱同学App,你可以通过问话的方式来帮你找到你需要的答案。除了向用户展示答案卡片以外,还会推荐更多用户可能感兴趣的“问题”,这些问题都是其他用户的问话或小爱的功能。为了更好的挖掘小爱用户的兴趣爱好和提高小爱用户的点击率,特设计和实现了基于WDL模型的个性化推荐系统。基于WDL模型的个性化推荐系统采用面向深度学习的推荐系统架构,线下主要包括样本收集、特征抽取、模型训练、模型上线等,线上主要分为召回、排序和重排过滤三个阶段。在实际的应用中,因为业务的物品列表太大,如果实时计算对每一个物品使用复杂的模型进行打分,就有可能耗时过长而影响用户的满意度,所以使用召回和排序。召回的作用就是从大量的候选物品中筛选出一批用户较可能喜欢的候选集,主要使用了基于物品的协同过滤算法,热门点击率推荐算法和运营QA推荐算法等。物品的相似物品主要通过线下使用Spark平台进行预计算,然后存储到缓存中供线上使用。排序的作用是对召回得到的相对较小的候选集使用排序模型进行打分,排序模型主要由线下训练完成,使用的算法模型为随机推荐算法、LR和WDL。模型效果的好坏有着特征的影响,所以在特征抽取方面做了很多尝试和选择。更进一步,在得到推荐列表后,为了多样性和运营的一些考虑,还会加入重排过滤,用于对精排后的推荐列表进行处理。基于WDL点击率预估模型的个性化推荐系统已在线上使用,AB测试结果显示用户点击率相较于以前的推荐算法提升大约百分之十,推荐结果的相似性也得到了大大地提高。

面向创新的专利知识图谱构建与应用研究

这是一篇关于专利知识分析,知识图谱构建,创新知识发现,特征抽取,动态聚类的论文, 主要内容为产品的创新在一定意义上就是功能的创新,挖掘专利中的创新知识有利于进行技术规避,打破专利壁垒。知识图谱是一种高效的知识表达模型,能够有效地发现图谱内各实体之间的联系,为智能搜索、知识问答等上层应用提供支持。因此,在专利分析的基础上,挖掘出有效的专利知识,构建面向创新的专利知识图谱具有十分重要的作用。从专利中提取创新知识是专利分析研究的重点,目前专利分析在特征提取方面做得并不是很好,存在特征抽取不全、抽取不合理等问题,不能很好地挖掘专利之间的关系。构建面向创新的专利知识图谱不仅需要良好的本体架构,还需要丰富的数据填充和关系建立。针对上述问题,本文的主要贡献包括:(1)对面向创新的专利知识图谱关键技术进行了研究,首先采用自顶向下的方式构建面向创新的专利知识图谱的相关本体。并以化学领域专利知识图谱的构建为例,设计并实现了从知识抽取,知识发现,知识存储的相关技术方案。为了提高召回率,更多的覆盖专利知识,以维基百科、同义词词林等为基础,进行面向创新的专利知识图谱元数据的扩展工作,经过实体链接将扩展词链接到知识库中。(2)在知识发现阶段,提出了一种动态聚类混合模型,该模型结合深度学习的相关技术,将表达相似功能的专利进行功能信息特征抽取,该模型特征抽取主要分为深层语义表示部分和功能词语关注部分。深层语义表示部分使用双向长短期记忆网络联合注意力机制抽取文本序列特征、卷积神经网络抽取文本嵌入特征、改进的权值潜在狄利克雷分布抽取文本主题特征;功能词语关注部分加入功能词语,加强这些功能词语在聚类中的作用。在聚类过程中调整网络参数,完成专利聚类,挖掘不同专利之间的关系。之后在创新知识抽取过程中,利用主题抽取模型分别与TF-IDF、Text Rank算法相结合抽取创新专利知识。(3)使用图数据库Neo4j对整理好的结构化三元组知识进行存储。同时设计创新专利知识图谱的系统架构,构建了一个创新专利知识图谱平台,具有专利搜索和本体架构展示功能,提供友好的可视化界面和API服务,将提出的算法整合成完整应用。本文以研究所中已有的专利数据和购买的专利文本为实验数据,在同样实验条件下,针对动态聚类混合模型进行了相关对比实验。该方法的F-measure为87.954%,在对比实验中值最高,验证了该模型的有效性。

在线教育的学习者协同学习社交关系构建方法研究

这是一篇关于在线教育,特征抽取,社区发现,伙伴推荐,网络收敛的论文, 主要内容为近几年,以MOOC平台为典型代表的在线教育平台正迅猛发展。在线教育没有中高考等门槛,没有必须在某个地方才能学习的要求和弊端。这让每个人都可以平等地享受到名牌大学的优质教育,学习者可以根据自己的兴趣和需求,自由地选择有兴趣的,流行的或者是大家都称赞的课程。但是,这在为学习者学习提供极高的便捷性的同时,也割裂了传统课堂学习环境下,学习者和其他人的直接接触。由此导致了学习者总是习惯于独自学习,没有动力去主动联系或者不习惯于联系互联网上的非直接接触的学习伙伴。缺少学习伙伴交流和共同学习氛围导致学习效率不高、学习持久性不强、课程辍学率高等问题。本文考察了传统教育学中关于学习伙伴构建关键要素,结合在线教育平台的用户行为特点,参考传统电商推荐系统的流程,构建了一整套在线教育的学习者协同学习社交关系构建方法。并初步进行了学习者在线教育交互平台的工程设计探索。本文就如何解决在线教育平台学习者伙伴推荐的课题展开四个子问题的研究,即基于教育心理学背景的在线教育平台学习者特征抽取,学习者基本伙伴网络构建及学习社区发现,基于神经网络排序的在线教育平台学习者学习伙伴匹配以及基于无标度网络理论的伙伴网络模拟收敛与伙伴推荐列表混排。对于学习者特征抽取子问题,本文首先探究了传统教育学当中,学习者之间构建起良好的学习伙伴关系过程当中的相似性、接近性、补偿性、外观性等重要因素。接下来,分析了在线教育平台与传统教育平台相比,学习者行为特征的差异性和各自的特点。根据这些特点,有针对性,选择性的强化了传统教育环境下的某些影响特征,另外提出了一些特有的特征,弱化了甚至删除了另外一些在线教育平台体现不明显的特征。给出了在线教育平台学习伙伴推荐关键因素的具体量化方法。对于学习者基本伙伴网络构建及社区发现子问题,本文根据传统社交网络研究当中的用户交互图理论,结合在线教育平台学习者直接交互稀少的特点,基于上面提出的在线教育平台关键要素研究给出了平台特有的学习者基本交互网络构建算法。之后,根据在线教育平台用户行为特征,针对性改进并实验测试了三种不同的网络划分社区算法,分别是kMean+Jaccard算法,Girvan-Newman介边切割算法以及随机游走算法。并最终选择介边切割算法来进行工程实践和进一步实验。对于神经网络排序子问题,本文首先根据传统教育学领域的伙伴标注方法,结合在线教育平台特征给出了在线教育平台伙伴关系随机标注算法。使用该方法结合时间序列分段来进行神经网络训练集和测试集的生成。接下来,根据之前所抽取的不同学习者特征,对不同的特征采用有针对性的网络结构进行了向量化处理并合在一起生成最终的神经网络输入。并设计了最终的伙伴分类网络总体结构,在之前划分好的学习者社区当中完成了学习者伙伴关系匹配的实验。同时还进行了不同学习者特征的对于伙伴关系构建影响力大小的定性分析。对于网络收敛和伙伴推荐列表混排子问题,本文首先分析了在线教育平台上学习者与其推荐伙伴之间形成的网络结构随时间推进呈现出的无标度网络结构特性,之后通过分析无标度网络生成理论,给出了本文下学习者及其伙伴网络模拟演化收敛算法。接下来从社交三角理论出发,给出了在伙伴网络收敛后,解决学习者交流“茧房效应”的推荐伙伴混排算法。并根据实验证明了当前混排推荐伙伴列表比原有推荐伙伴列表有着更好的精确度。