基于教育信息资源本体的主题爬虫的研究
这是一篇关于领域本体,概念,主题爬虫,语义关系,主题相关度的论文, 主要内容为随着网络资源的迅速发展,基于关键词匹配的搜索引擎已经不能满足用户专业化、个性化的查询请求。同时,由于受到万维网架构的影响,传统的基于关键词匹配的网络爬虫很大程度上降低了网页抓取的查全率和查准率。如何从海量网络数据中获取用户所需的专业化、个性化的数据已成为当前的研究热点。 面对这种情况,主题爬虫应运而生。主题爬虫是一种能在互联网上针对特定主题进行资源采集的网络爬虫。本文在深入研究主题爬虫的相关理论和技术的基础上,充分利用了领域本体在语义表达上的优势,将领域本体和主题爬虫的爬行过程相结合,提出一种基于本体语义树的主题爬虫模型。 本文首先构建了教育信息资源本体库,并扩展了教育信息资源的特有属性,在此基础上描述了主题爬虫的特定主题。其次,通过对大量网页进行结构分析,运用相应的算法分析页面中的title文本、URL文本和anchor文本等信息,提取出链接概念集合;同时运用相应的算法分析页面中的title文本、页面描述信息和关键词等信息,提取出页面内容概念集合。然后,本文提出了基于领域本体的链接相关度算法和页面内容相关度算法。在主题爬虫的爬行过程中,通过分析领域本体中的概念与链接概念集合的语义关系,过滤与主题不相关的链接;通过分析领域本体中的概念与页面内容概念集合的语义关系,过滤与主题不相关的网页。最后,本文实现了基于教育信息资源本体的主题爬虫原型系统,并通过对实验结果的分析,验证了主题爬虫系统提高了网页抓取的查全率和查准率。
基于教育信息资源本体的主题爬虫的研究
这是一篇关于领域本体,概念,主题爬虫,语义关系,主题相关度的论文, 主要内容为随着网络资源的迅速发展,基于关键词匹配的搜索引擎已经不能满足用户专业化、个性化的查询请求。同时,由于受到万维网架构的影响,传统的基于关键词匹配的网络爬虫很大程度上降低了网页抓取的查全率和查准率。如何从海量网络数据中获取用户所需的专业化、个性化的数据已成为当前的研究热点。 面对这种情况,主题爬虫应运而生。主题爬虫是一种能在互联网上针对特定主题进行资源采集的网络爬虫。本文在深入研究主题爬虫的相关理论和技术的基础上,充分利用了领域本体在语义表达上的优势,将领域本体和主题爬虫的爬行过程相结合,提出一种基于本体语义树的主题爬虫模型。 本文首先构建了教育信息资源本体库,并扩展了教育信息资源的特有属性,在此基础上描述了主题爬虫的特定主题。其次,通过对大量网页进行结构分析,运用相应的算法分析页面中的title文本、URL文本和anchor文本等信息,提取出链接概念集合;同时运用相应的算法分析页面中的title文本、页面描述信息和关键词等信息,提取出页面内容概念集合。然后,本文提出了基于领域本体的链接相关度算法和页面内容相关度算法。在主题爬虫的爬行过程中,通过分析领域本体中的概念与链接概念集合的语义关系,过滤与主题不相关的链接;通过分析领域本体中的概念与页面内容概念集合的语义关系,过滤与主题不相关的网页。最后,本文实现了基于教育信息资源本体的主题爬虫原型系统,并通过对实验结果的分析,验证了主题爬虫系统提高了网页抓取的查全率和查准率。
电子商务环境下用户观点的情感挖掘研究
这是一篇关于文本情感挖掘,细粒度信息抽取,语义关系,评价单元的论文, 主要内容为随着互联网技术和电子商务的迅速发展,人类社会正快速步入“全民网购”时代。消费者对产品的评论内容包含了商品的体验,也为其他消费者、企业产品的反馈提供了重要的信息资源。如何高效地挖掘用户评论中消费者对产品以及相关方面所持有的观点成为情感挖掘分析领域的热点问题。但是,由于中文自然语言表述的多样性和复杂性,使用户评论的情感分析和研究变得更具有挑战性。目前,对文本情感分析的研究主要集中于细粒度的情感挖掘。它能深入到用户评价的多个方面,提取评价信息中涉及的评价对象、评价词等元素,并对其进行情感倾向分析,从而准确地反映用户的评价意图。但是,现有的细粒度文本情感挖掘仍然存在一些至今还没有很好解决的问题。例如,评价对象与评价词不完备、评价词的情感倾向歧义等问题。如何有效解决这些问题,实现基于细粒度的文本情感分析,正受到学术界的广泛关注。本文首先分析了文本情感分析的国内外发展现状和存在问题,然后以文本情感挖掘的句法分析和语义分析为主线,对电子商务环境下用户评论的观点挖掘进行了研究。归纳起来,本文的主要研究工作表现在以下几个方面:(1)电商平台的产品评论数据获取与预处理。首先,使用Python爬虫方式获取京东商城的手机评论、相机评论和电脑评论信息。然后,对获取的评论数据进行清洗。最后,对数据集进行分句、分词、句法分析、语义分析等预处理,为后续的研究做好数据准备。(2)提出了基于语义的评价信息抽取方法。应用条件随机场(CRFs)模型,提出在条件随机场模型中引入句法分析和语义分析,解决评价对象、评价词的抽取。首先,对预处理后的评论内容进行用户关注度分析,半自动标注数据集。然后,构建适用于电商平台数据的评价信息抽取模型。最后,进行了实验分析。结果表明基于语义的评价信息抽取方法在抽取评价对象和评价词上F值分别达到了92.31%、89.90%,并验证了句法关系和语义关系对评价信息抽取的正确和有效。(3)提出了基于语义关系的评价单元抽取方法。针对评价对象与评价词不完备问题,提出了结合句法关系、语义关系的多粒度条件随机场模型抽取评价单元方法SSMCRFs(Syntactic Semantic and Multi-grained Conditional Random Fields,SSMCRFs),解决了评价单元的抽取问题。通过3个实验分别证明了SSMCRFs方法的有效性以及句法特性和语义特性对评价单元识别的效果。(4)产品评价情感倾向分析。针对评价词的情感倾向歧义问题,考虑了评价对象和评价词两者的依赖关系,采用SSMCRFs加支持向量机对评价单元进行情感倾向分析。首先,人工标注评价单元数据集为<评价对象,评价词,极性>三元组。然后,对获取的评论信息进行了情感倾向分析。最后,根据情感倾向分析结果和评价单元频数进行可视化展示。
基于类型组合与语义关系的推荐算法研究
这是一篇关于推荐系统,协同过滤,随机游走,知识图谱,语义关系的论文, 主要内容为近年来随着信息技术的快速发展,互联网中的数据资源也在呈指数倍增长。推荐系统可以通过分析海量信息中用户的历史行为,帮助用户快速、准确地发现需要的内容。协同过滤是目前最有效的推荐算法,通过分析相似用户的偏好来为目标用户进行推荐,但是此方法的推荐性能仍受到冷启动和数据稀疏等问题的限制。越来越多的研究者在推荐系统中加入用户和项目的多种信息以提出针对性的解决方案。本文分别研究了项目类型信息和知识图谱中的语义关系,提出两种推荐算法,以提高推荐准确性。针对传统的类型驱动方法只考虑类型间的关联或是将其组织成扁平或层次结构,而忽略项目和类型复杂关系的问题,提出基于类型组合空间的随机游走推荐算法。首先,建立一个用哈斯图表示的项目类型组合空间,将项目和类型复杂的一对多关系映射成一对一的简单关系;接着,定义了类型组合间的语义关系及语义距离,更好地对用户动态偏好的变化进行定性、定量描述;然后,结合类型组合空间上用户浏览过程中的偏好变化、用户跳转行为、跳转次数、时序、评分等各种信息,利用随机游走建立用户个性化类型偏好模型;最后,根据用户个性化偏好完成基于用户的协同过滤项目推荐。真实数据集上的实验表明,所提算法在排序推荐上优于传统基于类型的推荐算法。针对知识图谱中用户和项目之间的语义结构关系,通过关系抽取挖掘潜在语义关联,提出了基于语义关系的时序推荐模型。首先,在单领域知识的基础上设计一个轻量级的知识图谱;接着将用户和项目之间的交互定义为三种语义结构关系,包括用户与用户之间的社交关系,用户与项目之间的显式交互,项目与项目之间的隐式相关信息。然后加入了项目的流行元素对推荐的影响,通过深度学习技术获取用户动态偏好与项目短期特征。实验结果表明推荐算法的预测准确度得到提升,同时该模型不需要额外知识补充,因而方法更加高效且具有普遍适用性。
电子商务环境下用户观点的情感挖掘研究
这是一篇关于文本情感挖掘,细粒度信息抽取,语义关系,评价单元的论文, 主要内容为随着互联网技术和电子商务的迅速发展,人类社会正快速步入“全民网购”时代。消费者对产品的评论内容包含了商品的体验,也为其他消费者、企业产品的反馈提供了重要的信息资源。如何高效地挖掘用户评论中消费者对产品以及相关方面所持有的观点成为情感挖掘分析领域的热点问题。但是,由于中文自然语言表述的多样性和复杂性,使用户评论的情感分析和研究变得更具有挑战性。目前,对文本情感分析的研究主要集中于细粒度的情感挖掘。它能深入到用户评价的多个方面,提取评价信息中涉及的评价对象、评价词等元素,并对其进行情感倾向分析,从而准确地反映用户的评价意图。但是,现有的细粒度文本情感挖掘仍然存在一些至今还没有很好解决的问题。例如,评价对象与评价词不完备、评价词的情感倾向歧义等问题。如何有效解决这些问题,实现基于细粒度的文本情感分析,正受到学术界的广泛关注。本文首先分析了文本情感分析的国内外发展现状和存在问题,然后以文本情感挖掘的句法分析和语义分析为主线,对电子商务环境下用户评论的观点挖掘进行了研究。归纳起来,本文的主要研究工作表现在以下几个方面:(1)电商平台的产品评论数据获取与预处理。首先,使用Python爬虫方式获取京东商城的手机评论、相机评论和电脑评论信息。然后,对获取的评论数据进行清洗。最后,对数据集进行分句、分词、句法分析、语义分析等预处理,为后续的研究做好数据准备。(2)提出了基于语义的评价信息抽取方法。应用条件随机场(CRFs)模型,提出在条件随机场模型中引入句法分析和语义分析,解决评价对象、评价词的抽取。首先,对预处理后的评论内容进行用户关注度分析,半自动标注数据集。然后,构建适用于电商平台数据的评价信息抽取模型。最后,进行了实验分析。结果表明基于语义的评价信息抽取方法在抽取评价对象和评价词上F值分别达到了92.31%、89.90%,并验证了句法关系和语义关系对评价信息抽取的正确和有效。(3)提出了基于语义关系的评价单元抽取方法。针对评价对象与评价词不完备问题,提出了结合句法关系、语义关系的多粒度条件随机场模型抽取评价单元方法SSMCRFs(Syntactic Semantic and Multi-grained Conditional Random Fields,SSMCRFs),解决了评价单元的抽取问题。通过3个实验分别证明了SSMCRFs方法的有效性以及句法特性和语义特性对评价单元识别的效果。(4)产品评价情感倾向分析。针对评价词的情感倾向歧义问题,考虑了评价对象和评价词两者的依赖关系,采用SSMCRFs加支持向量机对评价单元进行情感倾向分析。首先,人工标注评价单元数据集为<评价对象,评价词,极性>三元组。然后,对获取的评论信息进行了情感倾向分析。最后,根据情感倾向分析结果和评价单元频数进行可视化展示。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计客栈 ,原文地址:https://m.bishedaima.com/lunwen/55937.html