基于知识图谱的业务行为研究
这是一篇关于知识图谱,业务行为预测,TF-IDF,数据增强的论文, 主要内容为业务行为指的是用户在业务场景下所产生的行为,如:消费行为、阅读行为、使用行为等。用户行为分析是指基于这些行为数据进行统计分析,从中发现用户使用产品的行为规律,并将这些规律与产品运营相结合,优化用户体验与用户兴趣挖掘。本文基于业务系统的行为数据,以用户为中心,围绕业务需求、用户需求对用户构建行为模型,利用有监督的深度学习技术分析用户的操作行为。本文采用知识图谱技术,利用图数据库作为底层,通过平台数据传输通道对数据收集上传,满足海量业务数据的存储和计算需求。依托深度学习等技术,提供丰富的可视化应用,为用户信息安全工作提供强有力的技术支撑。业务用户行为分析的应用可帮助政府、金融、电信及大型企业等各行业更好的优化产品体验与挖掘用户意图兴趣。本文的主要研究工作包括:(1)提出一个自动业务数据采集系统。由于大多数实际业务平台的业务数据接口不是开放的,无法通过后台数据库直接提供。首先本文通过截取客户端的页面,利用图像分割、OCR等技术,采集获取业务行为数据;其次,采用图数据库存储、管理业务行为数据,并利用自动业务数据采集系统获取到的历史数据构建知识图谱;然后,利用图数据库Neo4j作为核心数据库、Vue作为核心前端框架,可对采集数据进行可视化,提供了搜索、监控、分析等功能。(2)提出一个基于知识图谱的数据增强方法。在业务采集过程中采集到的数据数量较大,但往往存在信息不完整的情况,这样导致不能充分提取用户的行为特征。为此,本文通过对业务行为数据序列进行分割,利用业务知识图谱中的结构化信息在知识图谱中查询分割后的数据,最后通过将查询得到的候选数根据TF-IDF指标进行降序排序,将最优数据插入到行为数据序列中,进而达到数据增强的效果。实验表明该方法对多个深度神经网络行为预测模型均有提升效果(3)提出基于知识图谱的行为预测模型。经过业务行为数据采集以及数据增强后,利用本文的融合多维度行为特征的模型来预测当前的用户兴趣。一方面,该模型通过兴趣提取层来从历史行为序列中获取时间兴趣;另一方面,通过注意力在行为之间产生影响。能获得更好的训练效果和更快的训练过程。实验表明,在公共数据集的实验中,本文模型优于已有的解决方案。
电商平台用户评论的分析及应用
这是一篇关于电商用户评论,商品指标体系,TF-IDF,Snownlp,LSTM,CNN,Word2vec,数据应用的论文, 主要内容为随着电子商务的迅速发展,越来越多的用户通过电商平台进行网络购物,并在电商平台上留下了大量的用户评论。这些用户评论数据中蕴藏着大量的用户体验感受,对企业了解用户心声,快速的挖掘用户的关注点和需求点,有着重大的数据价值。因此,本文以京东平台的儿童电话手表行业为例,通过数据采集与清洗、指标关键词短句提取及情感分析、评论数据的分析和应用这三个环节来研究分析用户评论对企业的应用价值。首先本文通过网页爬虫从京东电商平台中采集儿童电话手表行业的用户评论及其相关内容。由于采集的数据存在不规范性,因此要对其进行品牌归整和用户评论清洗。清洗后的用户评论数据如何应用是本文研究的重点,也是企业迫切需要解决的问题。本文通过搭建商品指标体系,对用户评论进行指标化,快速分析挖掘用户对商品和服务的观点,其中商品指标体系的搭建包含商品指标的设计、指标关键词的提取、关键词短句的提取及情感分类这三部分。通过对用户评论进行分词,并根据用户提及词频及商品自身属性参数形成商品指标,同时通过TF-IDF关键词提取算法从用户评论中进行关键词提取,由指标关键词结合正则表达式从用户评论中抽取出关键词短句,最后通过对Snownlp分类模型、Sklearn下的各分类算法以及Keras下的LSTM、CNN模型分别进行关键词短句的情感分类及其效果评估,从中选择了关键词短句情感分类效果最佳的CNN模型。同时在指标关键词的提取过程中,为了解决语言表达多样化的问题,通过Word2vec将用户评论的词汇进行向量化,将与指标关键词的词向量相似度较高的词汇进行抽取,实现指标关键词的扩展。通过对用户评论进行数据清洗、指标体系搭建后,形成指标化的用户评论。我们通过数据分析方法及维度形成不同的数据应用模块,并以实际案例进行分析。了解到目前儿童电话手表行业整体的情况,包括龙头品牌有哪些,市场是否有机会点。同时通过品牌和商品指标之间的对比,可知道用户最为关注的是儿童电话手表的电池容量和续航能力,不同品牌在同一指标间表现有所差异。同时企业可根据分析结果,对用户评论中用户较为关注的点,但表现较差的产品优先进行改善优化,并通过持续监控方式来形成产品闭环管理,以此提升产品后的市场竞争力,进一步扩大企业的市场份额。
混合推荐系统在电子商务中的应用研究
这是一篇关于推荐系统,电子商务,混合推荐,冷启动,隐语义模型,TF-IDF,协同过滤的论文, 主要内容为目前人类社会高度信息化时代的到来离不开互联网各项技术的飞速发展,人们获取各种信息往往都借助于网络。随着互联网世界的发展愈加丰富,网络上的资源呈指数增长,随之带来的就是信息过载(Information Overload)的问题。当前背景下,推荐系统则成为解决这一问题的有效途径。在这电子商务这一领域逐渐衍化为迅猛的时代,从海量数据中获得对人们有用的信息变得愈加的困难和复杂。从海量的用户行为数据、商品数据等发掘有用的信息并利用这些信息在更短的时间、更准确地让用户获取,并帮助商家精确定位商品的潜在用户成为了各个电商平台的一大热点问题。互联网时代,推荐系统是所有面向用户的产品核心技术,向用户推荐用户感兴趣的一个产品小集合,推荐系统不仅可以解决信息过载的问题,还能为企业运营带来更多的收益。本文针对电子商务系统特性及当前电子商务推荐系统相关技术原理进行相关的研究,对个性化推荐系统中常用的基于内容的推荐、基于协同过滤的推荐及基于协同过滤的推荐介绍了算法的基本思想,还有其在应用场景中自身的优势与不足;然后引出了基于多种算法的三种混合推荐模式,即整体式、并行式、流水线式,不同的混合模式有利于使不同的算法之间互补,发挥其长处弥补其不足,这样会使推荐系统推荐结果更具准确性、多样性和新颖性。又对目前推荐系统中面临的问题进行了讨论,并给出了常见的可缓解其问题的方案。随后对推荐系统中常用的关键技术进行了详细介绍。对FLM与TF-IDF算法基本思想进行了详细介绍,提出了融合基于用户属性的推荐与FLM的混合协同过滤推荐模型,来缓解冷启动与数据稀疏性问题;融入项目热门度惩罚因子与用户活跃度惩罚因子的TF-IDF算法与协同过滤混合推荐模型,提高了推荐结果的多样性缓解商品的长尾问题。并在MovieLens数据集进行实验及评估其有效性。在最后基于上述工作,结合实际电商业务场景,构建融合了多种推荐算法并在Spark技术支持下实现了基于混合推荐算法的电商系统。
新闻文本结构化数据识别技术研究及其在质监新闻关键信息提取中的应用
这是一篇关于关键句提取,TextRank,TF-IDF,知识图谱,Bert,Seq2Seq的论文, 主要内容为上海市质量监督检验技术研究院需要获得全国各省市消费品质量抽查结果中的抽查商品名称、属性、合格批次等关键信息,这些信息发布在各地的质监新闻网站上,每篇新闻对一次质监抽查行动进行了详细的描述,叙述性的记录形式使得每篇新闻篇幅较长,涵盖了诸如质检人员介绍,商品价格,违规处理意见等需求外的信息,并且上述新闻文本没有一个统一的行文规范,上海市质量监督检验技术研究院每周需要派人对新增的新闻通告进行逐一地阅读统计,存在大量繁琐的重复劳动,针对上述情况,本文设计开发了一个关键信息提取系统来解决这个问题。在开发关键信息提取系统来解决质监新闻中关键信息提取的需求时,本文完成了如下的工作:(1)通过网络爬虫爬取全国各地质监新闻网的新闻文本数据进行关键信息提取工作的研究。(2)在数据预处理阶段,使用关键句提取技术聚焦质监新闻文本关键信息,缩减语料库。通过实验对比了基于Text Rank算法和基于深度学习模型的关键句提取技术在质监新闻文本中的表现,最终选择了Text Rank算法的输出作为数据预处理的结果。(3)在关键信息提取算法的选择中,通过实验对比了基于TF-IDF、基于Text Rank、以及知识图谱和深度学习结合的方式在质监新闻文本中的表现,最终选择了知识图谱和深度学习结合的方式作为关键信息提取系统的核心算法。(4)通过系统分析与架构设计,使用vue,layui等前端技术以及C#,python等后端技术开发了质监新闻关键信息提取系统,实现了质监新闻自动爬取、质监新闻关键句提取、质监新闻关键信息提取、数据查询与可视化等功能,通过上述系统解决上海市质量监督检验技术研究院信息提取的需求。本文研究结果及开发的系统已在上海市质量监督检验技术研究院投入使用,通过关键信息提取系统很好的解决了原先人工提取的不足,提高了工作效率。
基于知识图谱的高校教学资料管理模型及相关算法研究
这是一篇关于教学资料管理,知识图谱,属性图模型,TF-IDF,领域本体构建,语义检索的论文, 主要内容为高校在教学工作中会产生大量教学资料,将教学资料收集起来并进行管理具有非常重大的意义。然而,我国高校现有的教学资料管理系统仍存在一定问题,主要表现为资料未能得到有效组织和整合、资料间的关系未能得到充分挖掘、教师难以查找符合需求的教学资料。因此,本研究将知识图谱和图数据库等技术应用于高校教学资料管理,利用知识图谱和图数据库表达实体间关系的优秀性能,更好地存储与处理格式多样的教学资料,并结合教学资料提取算法挖掘教学资料间的内在关联,以更好地组织和整合教学资料,同时用教学资料的语义检索算法解决资料查找困难的问题。主要研究工作及成果如下:(1)提出一种基于知识图谱的高校教学资料本体模型。基于我国教学资源本体的相关规范,用七步法构建了高校教学资料本体模型,并将其转换成高校教学资料属性图模型,存储到Neo4j图数据库中,该模型能够定义实体类型和实体间的关系,构建起学科知识框架。(2)提出一种教学资料主题提取算法。将教学资料的文本特征引入TF-I DF算法进行改进,从文本中提取关键知识点,并基于自己构建的数据集进行实验。实验结果表明该算法在召回率、精确率和F1-Measure的性能指标上均有提升,验证了该算法的准确性。通过关键知识点将教学资料与构建好的高校教学资料属性图模型进行关联,建立起教学资料与知识点以及教学资料之间的关联。(3)提出一种基于高校教学资料本体模型的语义检索算法。通过对处理搜索语句后得出的关键词集进行概念映射、语义扩展和语义推理,构建出能准确理解检索需求的语义模型进行匹配检索,为教师推荐语义关联强的教学资料,并对结果进行可视化。
基于知识图谱的地理实体关系构建研究
这是一篇关于知识图谱,地理实体关系,TF-IDF,最大熵模型,条件随机场的论文, 主要内容为当前,网络中存在着海量的地理数据,但是想要从互联网中将这些大量的、类型多样的数据中抽取出地理实体关系或结构化地理信息较为困难。知识图谱是一个语义网络,其作用在于对现实中的实体与实体之间的关系进行描述,在众多领域都有运用。从网络中抽取地理信息,然后通过知识图谱来获取地理信息知识,是目前这个领域的常用方法。针对当前互联网中海量而又复杂的地理信息利用较为困难的问题,本文以知识图谱为基础,设计了一种在地理领域中基于网络文本的实体关系构建的方法,其主要内容包括:(1)针对地理信息采集之后网络文本过于繁杂的问题,本文建立一个以TF-IDF算法为基础的文本分类方式,首先在文本预处理中添加地理词典,然后通过建立文本向量空间模型,并修正TF-IDF地理特征权重运算方式,最后选择K临近算法来实现文本的分类。本研究利用地理词典来处理特征维度,能够使其维度进一步降低,而修正的特征权重运算方式可以对分类结果进行优化,从而进一步清除不属于地理的网络文本。(2)一般只有存在海量人工标注的语料时才可以实现关系构建,同时这种以弱监督回标为基础的构建模式,在获取训练语料的过程中常常出现大量的噪声,而且还会出现语料数量不足的缺陷。对于上述现象,本文在开始阶段就建立一个三元组扩充算法,该算法以关系特征词同义扩展为基础,进一步实现更多训练语料的检索匹配,从而获取更多的训练语料。然后,利用关系特征词过滤语料,实现语料的优化目的,再通过三元组回标文本过程,获取句子得到训练语料。因此,这些句子中含有了与实体相联系的关系特征词,从而实现了噪声的降低。研究结果表明,本文采用的方法可以大大降低语料噪声,同时解决语料数量不足的问题,对以后的实体关系抽取具有重要意义。(3)对于类型存在差异的实体关系构建过程,本文设计了两种构建方式。其一就是运用最大熵模型进行实体关系的构建,这种方式基于关系分类理论,利用n-pattern特征提取模式,对每种关系文本的不同之处进行表征,实现限定类型的关系构建;第二就是将句法分析树与CRF相结合的构建方式,这种方法以句法分析及序列标注为基础,能够构建出全部类型的关系。研究结果证明了本文建立的这两种方式的结果较为准确,相比于目前的人工实体关系构建模式,效率有了极大提高。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工坊 ,原文地址:https://m.bishedaima.com/lunwen/45087.html