基于RoBERTa的用户评论情感分析及推荐系统研究
这是一篇关于情感分析,RoBERTa,文本处理,推荐系统,评论文本的论文, 主要内容为互联网技术的发展让网络信息呈指数型增长,而在这些浩如烟海的信息里快速筛选有用的信息也成了一大难题。近年来,随着深度学习的技术发展及被应用到各个具体领域,推荐系统、自然语言处理等技术也有了长足发展。其中推荐系统是主要的信息过滤筛选的手段之一,面对冗杂的用户信息,推荐系统根据用户的历史信息、情感喜好等记录来为其提供更好的服务,从海量数据中精准的筛选目标物品,从而做到准确的推荐。随着用户数据和物品数据的暴增,传统推荐因为欠缺历史数据,常常会出现推荐准确度下降、冷启动、数据稀疏、可解释性不足、用户情感喜好把握不准确等问题,为了克服这些缺点,让推荐系统性能更优,研究者开始瞄准那些用户在上网过程中留下的周边数据,如位置信息、社交网络信息、会话信息、评论信息等等,这些周边信息拥有巨大的价值,深度研究这些信息应用到推荐系统中对模型是极其有益的。其中评论信息就是最易得、最直观反映用户情感喜好的信息,是用户对物品最直接的反馈,从评论文本中来学习用户情感和物品属性,然后通过算法做处理,能够很好地解决数据稀疏、冷启动、可解释性不足等一系列问题。在本文中,从评论文本处理切入,主要做了以下的工作:(1)首先,研究阐述了本课题的背景及研究意义,分析了关于评论文本情感分析以及推荐系统的发展历程和国内外研究的现状;其次,总结了本文中所应用到的关于文本处理以及深度学习的各种经典模型结构。(2)对本文中用到的评论文本数据集进行数据预处理,通过数据清洗、单词分词、词干提取、文本大小写转换、单词纠错等操作,得到精简数据集;情感分析和评论推荐对词嵌入的效果要求比较严格,词嵌入的结果能够深刻地影响模型性能。所以对各评论文本的词嵌入方法进行了实验,通过对实验结果的分析和对比,选择效果最好的词嵌入层作为来搭建本文的情感分析模型以及评论推荐模型。(3)评论文本中往往包含着丰富的情感信息,深入挖掘这些信息能够很好地了解用户的情感喜好,对推荐的效果是不言而喻的。但是文本中常常包含用户的隐含情感表达和语义的多样性等问题,对情感特征的提取造成了一定的困扰,因此在本文中,提出了一种新的评论情感分析模型R2BL。本模型对输入的评论文本通过RoBERTa层进行词嵌入,生成动态的、上下文依赖强的词向量,对评论信息进行更加有效表达;通过两层的BiLSTM网络层来进行计算,捕获评论文本的双向语义,对文本语义中包含的隐含情感特征信息进行提取,接着使用一个Sigmoid函数对评论中的情感极性进行分类得出结果。最后在电影评论数据集IMDB上进行了实验,通过和各类别的情感分析模型对比,证明了本文提出模型的优秀性能。(4)传统的评论推荐模型,对评论数据的利用还只是停留在单纯的特征信息提取上,往往忽略评论文本中用户的情感表达,而这些情感信息却是能够很好反映用户的喜好,所以就会导致推荐结果不准确以及模型可解释性不足等问题。为了解决以上出现的这些情况,本文提出了一个融合用户评论情感倾向的深度推荐系统RIST。利用RoBERTa模型表征评论文本,输入到两层BiLSTM网络来提取用户隐性情感表达,得到用户的情感特征;同时将RoBERTa输出的评论词嵌入向量输入到卷积神经网络来提取特征信息,然后经过协同注意力机制网络筛选用户和物品的有用特征;融合评论特征以及用户情感特征,通过MLP网络来进行连接交互,最后对模型做出评分预测。该模型在亚马逊公开数据集选取4个商品评论子数据集,进行同基线模型的对比实验,实验结果表明,本文模型能更准确地反映用户的真实喜好,对比其他基线模型,推荐性能明显提升。
基于改进相似度和用户聚类的新闻推荐方法
这是一篇关于新闻推荐,协同过滤,总体多样性,文本处理,相似度计算的论文, 主要内容为信息技术的发展使信息的发布和传播变得非常容易,这在带来巨大便利的同时也带来了信息过载的问题。以新闻数据为例,面对每天成千上万的新闻报道,用户如何在短时间里找到自己感兴趣的新闻是每个用户必须面对的问题。个性化推荐可以解决这个问题。个性化推荐目前已在业界被广泛应用并取得很大成效,但传统的推荐系统把追求较高准确性作为推荐目标,忽略了其他指标,导致了用户满意度不高。近些年越来越多的专家学者关注到推荐系统多样性的重要性,一般来说多样性提高会带来准确性的降低,如何在保证一定准确性的情况下提高多样性是多样性研究必须面对的问题。针对这一问题,本文以协同过滤推荐算法为基础,融合用户兴趣偏好,综合运用k-means算法、向量空间模型等方法设计了一种新闻推荐方法,主要研究工作包括以下内容:首先,改进传统的相似度计算公式,缓和数据稀疏性带来的准确性不高的问题。数据稀疏性一直是制约推荐效果的原因之一,本文利用杰卡德相似系数和热门惩罚因子对传统余弦相似度计算公式进行修正,提高稀疏数据下用户间相似度计算的准确性,进而提高推荐结果的准确性。其次,依据新闻文本特征构建用户兴趣模型,解决数据集无类别标记的问题。电影推荐可以依据电影类别生成用户对电影的类别偏好以提高推荐质量,但本文采用数据集中无类别标记。本文通过TF-IDF算法计算出关键词权重建立新闻特征矩阵,然后与用户浏览记录结合构建用户兴趣模型,进而提高推荐质量。最后,聚类及跨类选择最近邻,解决推荐列表总体多样性不足的问题。传统方法直接选择与目标用户相似度最大的前K个用户作为最近邻集合进行协同推荐,推荐结果准确性很高但多样性不足。本文采用k-means聚类算法对用户兴趣偏好聚类,然后通过在不同类内分别寻找目标用户最近邻的方法提高协同用户的多样性,进而提高推荐结果的总体多样性。本文选择DataCastle竞赛发布的财新网中10000个用户在2014年3月的新闻浏览记录作为数据集进行实验。实验结果表明,与传统推荐算法对比,本文方法在保证一定准确性的情况下,有效提高了推荐列表的总体多样性,具有更高的推荐质量。其研究成果对于新闻领域总体多样性的研究具有一定的理论价值,对发掘长尾新闻、提高用户满意度上有一定的应用价值。
基于文本处理和用户画像的文章推荐系统
这是一篇关于文章推荐,文本处理,用户画像,深度学习的论文, 主要内容为随着数据信息时代的到来,层出不穷的文章平台和网站使人们能更便捷地获取知识,但同时,信息的快速膨胀也带来了一些问题。一方面,用户面对海量的文章难以快速找到目标;另一方面,平台方也想为用户呈现个性化的内容以提升用户体验。而文章推荐系统作为信息过滤的一种方式,大大提升了用户与目标的触达效率,逐渐成为互联网产品中不可或缺的一部分。其中文本和用户作为最主要的两大对象实体时刻影响着最终的推荐效果,因此,研究基于文本处理及用户画像的推荐方法是具有重要意义的。首先基于文章推荐中文本的语义丰富性,并对比目前各类文本处理方法,本文提出了一种基于深度文本处理的推荐模型。该模型针对现有方法很少考虑到全局词共现的问题,采用GCN(Graph Convolutional Network)网络进行文本分类并提取特征。另外针对用户画像模型中兴趣偏好这一特征维度的动态性和关联性,对用户兴趣模型进行构建,提升特征提取准确性的同时也优化了最终的推荐效果。接着考虑到传统协同过滤方法通常会出现用户冷启动及矩阵过于稀疏的问题,在对比调研各类应用于文章推荐场景下的优化方法后,本文设计了一种融合用户画像技术的协同过滤推荐方法。该方法针对文章推荐的场景设计了一种用户画像标签体系,同时利用相关文本处理技术提取多维度的用户特征,并提出一种优化的用户聚类方法,在为用户进行有效分类的同时也大大提升了推荐计算的效率。最终在进行协同过滤推荐时有效缓解了冷启动及矩阵稀疏问题。最后对所提的两种方法进行了仿真实验,并将所提方法以一种并列的关系植入实际的推荐系统中,再通过对得到的两类待推荐文章集合进行混合后排序来完成最终的推荐。实验结果和系统实际的运行情况都证明了方法的可行性与准确性。
基于SSM的文本信息处理系统设计与实现
这是一篇关于文本处理,Web应用,SSM框架,爬虫的论文, 主要内容为在这个信息急速增长的时代,人们每天不得不面对大量数据。其中,文本数据在这里扮演着越来越重要的角色,它们包括博客、日常新闻、用户行为和系统日志等等。如何让人在有限的精力内就能了解到文本的主题和文章的关键所在是很有意义的。随着人工智能的不断深化,除了普通用户之外,很多研究人员需要快速对文本的重要信息进行提取。有很多开源的第三方本文处理库,但它们的API通常晦涩难懂,需要有一定的基础才能使用。为了使得用户可以在没有学习成本的情况下进行文本处理,本文将这些API通过Web的形式展现来满足用户需求。本文首先从文本处理算法和Web应用的发展和现状引出了研究背景;然后对文本处理算法的原理进行了详细的讲解,其中包括分词、关键词提取和自动摘要。同时阐述了本文所使用的SSM框架(Spring,Spring MVC,Mybatis)的实现原理;在文章的第三部分对系统的需求进行了梳理,并评估了系统的安全性、可行性和运行性能;接着,给出了系统的总体设计,其中包括用户模块、数据模块、算法模块、可视化模块和邮件模块。针对每个模块的特点给出了它们的设计流程图;最后,对前面给出的五个模块的设计,分别详细的讲解了其核心代码的实现原理。同时,从系统总览、用户注册/登录、数据分析和邮件这四个方面的功能对系统进行了测试。从系统的设计到系统的实现和测试在满足用户需求的同时又保证了系统的性能和美观。同时将其投入到法院文本分析的工程实践当中。本系统具有较好的应用价值。
基于SSM的文本信息处理系统设计与实现
这是一篇关于文本处理,Web应用,SSM框架,爬虫的论文, 主要内容为在这个信息急速增长的时代,人们每天不得不面对大量数据。其中,文本数据在这里扮演着越来越重要的角色,它们包括博客、日常新闻、用户行为和系统日志等等。如何让人在有限的精力内就能了解到文本的主题和文章的关键所在是很有意义的。随着人工智能的不断深化,除了普通用户之外,很多研究人员需要快速对文本的重要信息进行提取。有很多开源的第三方本文处理库,但它们的API通常晦涩难懂,需要有一定的基础才能使用。为了使得用户可以在没有学习成本的情况下进行文本处理,本文将这些API通过Web的形式展现来满足用户需求。本文首先从文本处理算法和Web应用的发展和现状引出了研究背景;然后对文本处理算法的原理进行了详细的讲解,其中包括分词、关键词提取和自动摘要。同时阐述了本文所使用的SSM框架(Spring,Spring MVC,Mybatis)的实现原理;在文章的第三部分对系统的需求进行了梳理,并评估了系统的安全性、可行性和运行性能;接着,给出了系统的总体设计,其中包括用户模块、数据模块、算法模块、可视化模块和邮件模块。针对每个模块的特点给出了它们的设计流程图;最后,对前面给出的五个模块的设计,分别详细的讲解了其核心代码的实现原理。同时,从系统总览、用户注册/登录、数据分析和邮件这四个方面的功能对系统进行了测试。从系统的设计到系统的实现和测试在满足用户需求的同时又保证了系统的性能和美观。同时将其投入到法院文本分析的工程实践当中。本系统具有较好的应用价值。
基于文本处理与合作关系的高校教师推荐系统设计与实现
这是一篇关于高校教师推荐,文本处理,网络挖掘,推荐系统,特征学习的论文, 主要内容为如何高效检索信息是当下的一个热点问题,人们往往面临海量数据却难以获得自己想要的数据,因此推荐系统在如今备受关注。对于高校教师这一特殊群体,由于其圈子具有一定的独立性与封闭性,外界人士很难获取到该群体的有效信息,这意味着不同于商业公司应用的商品推荐与社交推荐,要想把高校教师精准推荐给需要的人群,如学生、企业等,是有一定困难的。传统的推荐算法并不适用于高校教师推荐且难以取得较好的效果,这意味着该场景下的推荐有很大的提升空间。在此背景下,本文通过研究个性化推荐算法,对传统推荐算法进行改进。基于问题场景与数据的特殊性,围绕文本处理技术与网络挖掘技术,结合多种特征对数据实体进行建模,提出了一种针对教师推荐的特征学习算法FLTR4Rec,从而实现将高校教师精准推荐给需要的人。本文在真实抓取的数据集上验证了算法的有效性,并且最后基于该算法实现了一个教师推荐系统。论文的主要内容如下:(1)在对文本信息的处理中,针对该场景中数据包含大量专有名词的性质,本文在提取中文文本特征方面进行了研究。考虑到分词的难度,本文放弃使用传统的分词+词向量的策略,直接学习字符粒度的文本向量,通过引入百度百科的外部语料库,预训练得到细粒度字向量特征,并通过sanity check与可视化的方法检查了字向量的质量。(2)该课题场景下的数据不仅包含文本,而且包含实体间的合作关系,本文引入了异构信息网络对数据进行建模,并使用超边采样与自编码器对数据中的关系进行处理和特征提取。通过使用网络挖掘的相关技术,能顺利提取到数据中的网络特征。(3)基于文本特征与网络特征,提出了一种可用于推荐场景的多特征学习算法FLTR4Rec。利用神经网络强大的学习能力,该算法使用一个实体间关系预测任务来学习数据中每一个对象的文本特征与网络特征,并能够自动将两种特征进行融合。在真实数据上的实验表明,FLTR4Rec在教师推荐场景下的效果要优于传统推荐算法与单特征学习算法。(4)基于FLTR4Rec算法实现了一个高校教师推荐系统,该系统主要使用Django来实现,具有信息展示、教师推荐与数据管理的功能,可以针对学生、企业、教师三种人群分别进行教师推荐。
基于文本处理与合作关系的高校教师推荐系统设计与实现
这是一篇关于高校教师推荐,文本处理,网络挖掘,推荐系统,特征学习的论文, 主要内容为如何高效检索信息是当下的一个热点问题,人们往往面临海量数据却难以获得自己想要的数据,因此推荐系统在如今备受关注。对于高校教师这一特殊群体,由于其圈子具有一定的独立性与封闭性,外界人士很难获取到该群体的有效信息,这意味着不同于商业公司应用的商品推荐与社交推荐,要想把高校教师精准推荐给需要的人群,如学生、企业等,是有一定困难的。传统的推荐算法并不适用于高校教师推荐且难以取得较好的效果,这意味着该场景下的推荐有很大的提升空间。在此背景下,本文通过研究个性化推荐算法,对传统推荐算法进行改进。基于问题场景与数据的特殊性,围绕文本处理技术与网络挖掘技术,结合多种特征对数据实体进行建模,提出了一种针对教师推荐的特征学习算法FLTR4Rec,从而实现将高校教师精准推荐给需要的人。本文在真实抓取的数据集上验证了算法的有效性,并且最后基于该算法实现了一个教师推荐系统。论文的主要内容如下:(1)在对文本信息的处理中,针对该场景中数据包含大量专有名词的性质,本文在提取中文文本特征方面进行了研究。考虑到分词的难度,本文放弃使用传统的分词+词向量的策略,直接学习字符粒度的文本向量,通过引入百度百科的外部语料库,预训练得到细粒度字向量特征,并通过sanity check与可视化的方法检查了字向量的质量。(2)该课题场景下的数据不仅包含文本,而且包含实体间的合作关系,本文引入了异构信息网络对数据进行建模,并使用超边采样与自编码器对数据中的关系进行处理和特征提取。通过使用网络挖掘的相关技术,能顺利提取到数据中的网络特征。(3)基于文本特征与网络特征,提出了一种可用于推荐场景的多特征学习算法FLTR4Rec。利用神经网络强大的学习能力,该算法使用一个实体间关系预测任务来学习数据中每一个对象的文本特征与网络特征,并能够自动将两种特征进行融合。在真实数据上的实验表明,FLTR4Rec在教师推荐场景下的效果要优于传统推荐算法与单特征学习算法。(4)基于FLTR4Rec算法实现了一个高校教师推荐系统,该系统主要使用Django来实现,具有信息展示、教师推荐与数据管理的功能,可以针对学生、企业、教师三种人群分别进行教师推荐。
基于RoBERTa的用户评论情感分析及推荐系统研究
这是一篇关于情感分析,RoBERTa,文本处理,推荐系统,评论文本的论文, 主要内容为互联网技术的发展让网络信息呈指数型增长,而在这些浩如烟海的信息里快速筛选有用的信息也成了一大难题。近年来,随着深度学习的技术发展及被应用到各个具体领域,推荐系统、自然语言处理等技术也有了长足发展。其中推荐系统是主要的信息过滤筛选的手段之一,面对冗杂的用户信息,推荐系统根据用户的历史信息、情感喜好等记录来为其提供更好的服务,从海量数据中精准的筛选目标物品,从而做到准确的推荐。随着用户数据和物品数据的暴增,传统推荐因为欠缺历史数据,常常会出现推荐准确度下降、冷启动、数据稀疏、可解释性不足、用户情感喜好把握不准确等问题,为了克服这些缺点,让推荐系统性能更优,研究者开始瞄准那些用户在上网过程中留下的周边数据,如位置信息、社交网络信息、会话信息、评论信息等等,这些周边信息拥有巨大的价值,深度研究这些信息应用到推荐系统中对模型是极其有益的。其中评论信息就是最易得、最直观反映用户情感喜好的信息,是用户对物品最直接的反馈,从评论文本中来学习用户情感和物品属性,然后通过算法做处理,能够很好地解决数据稀疏、冷启动、可解释性不足等一系列问题。在本文中,从评论文本处理切入,主要做了以下的工作:(1)首先,研究阐述了本课题的背景及研究意义,分析了关于评论文本情感分析以及推荐系统的发展历程和国内外研究的现状;其次,总结了本文中所应用到的关于文本处理以及深度学习的各种经典模型结构。(2)对本文中用到的评论文本数据集进行数据预处理,通过数据清洗、单词分词、词干提取、文本大小写转换、单词纠错等操作,得到精简数据集;情感分析和评论推荐对词嵌入的效果要求比较严格,词嵌入的结果能够深刻地影响模型性能。所以对各评论文本的词嵌入方法进行了实验,通过对实验结果的分析和对比,选择效果最好的词嵌入层作为来搭建本文的情感分析模型以及评论推荐模型。(3)评论文本中往往包含着丰富的情感信息,深入挖掘这些信息能够很好地了解用户的情感喜好,对推荐的效果是不言而喻的。但是文本中常常包含用户的隐含情感表达和语义的多样性等问题,对情感特征的提取造成了一定的困扰,因此在本文中,提出了一种新的评论情感分析模型R2BL。本模型对输入的评论文本通过RoBERTa层进行词嵌入,生成动态的、上下文依赖强的词向量,对评论信息进行更加有效表达;通过两层的BiLSTM网络层来进行计算,捕获评论文本的双向语义,对文本语义中包含的隐含情感特征信息进行提取,接着使用一个Sigmoid函数对评论中的情感极性进行分类得出结果。最后在电影评论数据集IMDB上进行了实验,通过和各类别的情感分析模型对比,证明了本文提出模型的优秀性能。(4)传统的评论推荐模型,对评论数据的利用还只是停留在单纯的特征信息提取上,往往忽略评论文本中用户的情感表达,而这些情感信息却是能够很好反映用户的喜好,所以就会导致推荐结果不准确以及模型可解释性不足等问题。为了解决以上出现的这些情况,本文提出了一个融合用户评论情感倾向的深度推荐系统RIST。利用RoBERTa模型表征评论文本,输入到两层BiLSTM网络来提取用户隐性情感表达,得到用户的情感特征;同时将RoBERTa输出的评论词嵌入向量输入到卷积神经网络来提取特征信息,然后经过协同注意力机制网络筛选用户和物品的有用特征;融合评论特征以及用户情感特征,通过MLP网络来进行连接交互,最后对模型做出评分预测。该模型在亚马逊公开数据集选取4个商品评论子数据集,进行同基线模型的对比实验,实验结果表明,本文模型能更准确地反映用户的真实喜好,对比其他基线模型,推荐性能明显提升。
基于RoBERTa的用户评论情感分析及推荐系统研究
这是一篇关于情感分析,RoBERTa,文本处理,推荐系统,评论文本的论文, 主要内容为互联网技术的发展让网络信息呈指数型增长,而在这些浩如烟海的信息里快速筛选有用的信息也成了一大难题。近年来,随着深度学习的技术发展及被应用到各个具体领域,推荐系统、自然语言处理等技术也有了长足发展。其中推荐系统是主要的信息过滤筛选的手段之一,面对冗杂的用户信息,推荐系统根据用户的历史信息、情感喜好等记录来为其提供更好的服务,从海量数据中精准的筛选目标物品,从而做到准确的推荐。随着用户数据和物品数据的暴增,传统推荐因为欠缺历史数据,常常会出现推荐准确度下降、冷启动、数据稀疏、可解释性不足、用户情感喜好把握不准确等问题,为了克服这些缺点,让推荐系统性能更优,研究者开始瞄准那些用户在上网过程中留下的周边数据,如位置信息、社交网络信息、会话信息、评论信息等等,这些周边信息拥有巨大的价值,深度研究这些信息应用到推荐系统中对模型是极其有益的。其中评论信息就是最易得、最直观反映用户情感喜好的信息,是用户对物品最直接的反馈,从评论文本中来学习用户情感和物品属性,然后通过算法做处理,能够很好地解决数据稀疏、冷启动、可解释性不足等一系列问题。在本文中,从评论文本处理切入,主要做了以下的工作:(1)首先,研究阐述了本课题的背景及研究意义,分析了关于评论文本情感分析以及推荐系统的发展历程和国内外研究的现状;其次,总结了本文中所应用到的关于文本处理以及深度学习的各种经典模型结构。(2)对本文中用到的评论文本数据集进行数据预处理,通过数据清洗、单词分词、词干提取、文本大小写转换、单词纠错等操作,得到精简数据集;情感分析和评论推荐对词嵌入的效果要求比较严格,词嵌入的结果能够深刻地影响模型性能。所以对各评论文本的词嵌入方法进行了实验,通过对实验结果的分析和对比,选择效果最好的词嵌入层作为来搭建本文的情感分析模型以及评论推荐模型。(3)评论文本中往往包含着丰富的情感信息,深入挖掘这些信息能够很好地了解用户的情感喜好,对推荐的效果是不言而喻的。但是文本中常常包含用户的隐含情感表达和语义的多样性等问题,对情感特征的提取造成了一定的困扰,因此在本文中,提出了一种新的评论情感分析模型R2BL。本模型对输入的评论文本通过RoBERTa层进行词嵌入,生成动态的、上下文依赖强的词向量,对评论信息进行更加有效表达;通过两层的BiLSTM网络层来进行计算,捕获评论文本的双向语义,对文本语义中包含的隐含情感特征信息进行提取,接着使用一个Sigmoid函数对评论中的情感极性进行分类得出结果。最后在电影评论数据集IMDB上进行了实验,通过和各类别的情感分析模型对比,证明了本文提出模型的优秀性能。(4)传统的评论推荐模型,对评论数据的利用还只是停留在单纯的特征信息提取上,往往忽略评论文本中用户的情感表达,而这些情感信息却是能够很好反映用户的喜好,所以就会导致推荐结果不准确以及模型可解释性不足等问题。为了解决以上出现的这些情况,本文提出了一个融合用户评论情感倾向的深度推荐系统RIST。利用RoBERTa模型表征评论文本,输入到两层BiLSTM网络来提取用户隐性情感表达,得到用户的情感特征;同时将RoBERTa输出的评论词嵌入向量输入到卷积神经网络来提取特征信息,然后经过协同注意力机制网络筛选用户和物品的有用特征;融合评论特征以及用户情感特征,通过MLP网络来进行连接交互,最后对模型做出评分预测。该模型在亚马逊公开数据集选取4个商品评论子数据集,进行同基线模型的对比实验,实验结果表明,本文模型能更准确地反映用户的真实喜好,对比其他基线模型,推荐性能明显提升。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://m.bishedaima.com/lunwen/46369.html