面向计算机领域的多模态知识图谱构建方法研究
这是一篇关于学科知识图谱,多模态知识图谱,领域实体抽取,关系挖掘,多模态关系挖掘的论文, 主要内容为知识图谱以其强大的知识组织能力及推理能力对人工智能的发展有着重要作用,因此受到广泛关注。知识图谱根据内容的不同分为通用知识图谱和领域知识图谱,通用知识图谱是对全领域知识的组织,领域知识图谱则是面向特定领域信息的组织,随着智慧教育的发展,学科知识图谱的构建成为不可或缺的一部分工作,而多模态的学科知识图谱可以将知识以不同的形式表达,不仅可以丰富知识图谱的信息,还可以适应不同学习者的学习风格。因此,为了更好的促进智慧教育的发展,需要研究一种高效的多模态学科知识图谱构建方法。本文以构建计算机科学领域多模态知识图谱为例,提出构建领域实体集的方法,并基于已有的大型背景知识库、文本及图像的多模态信息进行领域实体间多种关系的挖掘,通过对图像信息的挖掘,实现图像实体与文本实体的对齐、图像的分类以及图像间关系的发现。本课题的主要研究工作如下:1)设计实现了一种基于图排序和最大信息增益的领域实体抽取方法。在领域文本资源中利用实体的结构相关度构建实体图,通过图排序算法抽取领域核心实体,然后在DBpedia中利用最大信息增益原理进行实体扩展,获得较为全面的领域实体。分别在数据结构领域数据集和CSEN、EcoEN公开数据集上进行实体抽取方法评估,在INEX公开数据集上进行实体扩展方法评估。实验结果表明,领域实体抽取方法能够有效构建较为全面、准确的领域实体集。2)设计了基于文本结构、实体属性和图像信息特征的先序关系抽取的方法,利用RF模型实现先序关系的二分类。首先通过实体聚类将相似度较高的实体形成簇,在簇内进行先序关系的判别以降低实验的计算量和时间复杂度,在相对常用的先序关系抽取特征的基础上,设计了利用图像信息挖掘先序关系的特征,将是否存在先序关系转化为分类问题,利用分类器进行先序关系判别,通过查全率、查准率和F1值对实验方法进行评价。为了丰富领域关系,对领域知识进行分析并设计了计算机科学领域的独特关系,最后通过对领域本体的丰富,实现了抽取知识和领域本体的链接。3)设计了基于多级信息源的多模态实体对齐算法以及基于神经网络模型和规则设计的多模态实体间关系抽取方法。利用OCR技术对图像内文本信息进行识别、对图像周围描述信息进行实体抽取以获得图像相关实体,将其与领域实体集通过基于字符串相似的算法实现多模态实体对齐。利用ResNet神经网络模型实现图像分类,从而获得文本实体与图像间的不同关系,并通过设计图像间关系挖掘规则在图像和图像间建立关系。最后通过对构建的多模态知识图谱进行规模统计与结果可视化展示。
融合关系挖掘与协同过滤的个性化推荐方法研究
这是一篇关于推荐系统,协同过滤,关系挖掘,新物品冷启动的论文, 主要内容为近年来,人工智能、大数据等新技术迅速发展,互联网规模逐年扩大,产生了大量的互联网企业等,人们的生活方式由此发生了巨大的改变。在信息暴增的大数据时代,人们的周围充斥着各种数不胜数的信息,难以从海量的数据中精准找到自己需要的内容,信息过载是这个时期急需解决的问题。推荐系统的产生能很好的解决这一问题,但是当新物品出现时,系统中没有关于它的任何评分信息,从而其很难被推荐给用户,因此出现了冷启动问题。为解决推荐系统冷启动问题,实现新物品的个性化推荐,本文融合关系挖掘与协同过滤算法,主要内容为:(1)本文提出了融合关系挖掘与协同过滤的物品冷启动推荐算法(IMCF)。首先基于关系挖掘提取并扩展物品特征,采用关系挖掘方法提取物品间三种相互关系,扩展属性的数量,丰富目标物品的可用属性信息,增加物品间区分度,解决了实际中物品属性信息少且难以提取的问题。然后提出基于关系挖掘的近邻选取方法,改进传统方法对物品间相似度计算的不足,解决邻近物品集单一的问题。最后将关系挖掘与协同过滤算法相结合,并引入了调节参数进行结果寻优,可以同时解决新物品完全冷启动和非完全冷启动问题。(2)本文提出了基于关系挖掘与物品权重和离散程度的推荐算法(IMWD)。首先分析了传统的余弦方法利用评分对物品相似度计算的缺陷,并提出新的相似度计算方法,充分利用每个用户信息、物品评分信息、计算物品所占权重。然后引入调节参数,与关系挖掘相似度进行融合,探寻最优结果的参数值。最后再引入物品评分数据的离散程度来计算数据的波动性,提高系统预测评分阶段的准确性,与其它方法作对比,结果证实本文方法更具优势。本文通过大量实验确定两个参数的最优值,并在数据集Movielens 100K、Movielens1M和Movielens 10M中对本文提出的推荐方法进行验证。实验结果表明,本文不仅可以解决新物品冷启动问题,而且还提高推荐系统的准确性、多样性、新颖性、覆盖率等。
音视频数据获取与同源性分析关键技术研究
这是一篇关于数据获取,视频网站,关系挖掘,同源分析,分布式计算的论文, 主要内容为我国的互联网正处于蓬勃发展中,人们在获取内容的方式上发生了巨大的变革,越来越多的网民喜欢通过音视频来获取信息。同时,各大网络视频网站纷纷提出泛娱乐内容新生态的建设,这对音视频数据挖掘提出了新的需求。本文研究了音视频数据挖掘的两个关键问题:第一个问题是音视频文本数据的获取,数据获取是web挖掘的基石;第二个问题是对音视频数据的同源性分析,同源性分析是通过分析真实世界中实体之间的相似关系,从而挖掘出网络视频网站中潜在的用户关系。基于分布式网络爬虫的数据获取技术是当前研究的主流方向,本文对现有的分布式网络爬虫系统进行了深入的研究。针对现有的开源爬虫框架对分布式支持的不足,本文设计了一套分布式网络爬虫系统,并给出了分布式任务调度算法。面对海量数据,为了提高系统的爬行效率,本文重点研究了URL去重和网页内容去重。对于URL去重,首先分析了传统BloomFilter的优缺点,然后对其进行了改进,降低了传统Bloom Filter误判率高的问题;对于网页内容去重,本文提出先对网页内容进行分词处理,再通过SimHash算法来判断当前页面是否已经存在的方法。论文通过实验证明了在海量数据下,本文提出的URL去重方法具有更低的误判率,以及提出的网页内容去重方法相比其他的算法具有明显的速度优势。本文对现有的社交网络用户关系挖掘进行了深入研究,提出了一种基于Sim Rank的音视频数据同源性分析方法,该方法可以计算出音视频分享者之间的相似度,通过相似度我们可以来度量这些音视频分享者之间的同源性。在海量数据面前,原始的SimRank计算时间耗费十分巨大,本文对原始的SimRank进行了基于MapReduce的分布式实现与分析,发现在分布式环境下,SimRank存在计算速度慢、通信量大等问题。最后本文对原有的分布式SimRank算法进行了改进。为了验证改进结果,论文在3个真实网络数据集和1个网络爬虫获取的数据集进行了实验,证明了改进的分布式Sim Rank更适合海量数据计算。最后,本文设计并实现了一套音视频数据获取与同源性分析系统,采用真实的网络视频网站的数据进行验证,结果分析表明本文设计的分布式网络爬虫系统能全面、快速地获取到音视频数据,本文提出的同源性分析方法能够挖掘出符合直观感受的用户关联信息。整个系统能够为泛娱乐内容新生态的建设提供全面准确的数据支持。
音视频数据获取与同源性分析关键技术研究
这是一篇关于数据获取,视频网站,关系挖掘,同源分析,分布式计算的论文, 主要内容为我国的互联网正处于蓬勃发展中,人们在获取内容的方式上发生了巨大的变革,越来越多的网民喜欢通过音视频来获取信息。同时,各大网络视频网站纷纷提出泛娱乐内容新生态的建设,这对音视频数据挖掘提出了新的需求。本文研究了音视频数据挖掘的两个关键问题:第一个问题是音视频文本数据的获取,数据获取是web挖掘的基石;第二个问题是对音视频数据的同源性分析,同源性分析是通过分析真实世界中实体之间的相似关系,从而挖掘出网络视频网站中潜在的用户关系。基于分布式网络爬虫的数据获取技术是当前研究的主流方向,本文对现有的分布式网络爬虫系统进行了深入的研究。针对现有的开源爬虫框架对分布式支持的不足,本文设计了一套分布式网络爬虫系统,并给出了分布式任务调度算法。面对海量数据,为了提高系统的爬行效率,本文重点研究了URL去重和网页内容去重。对于URL去重,首先分析了传统BloomFilter的优缺点,然后对其进行了改进,降低了传统Bloom Filter误判率高的问题;对于网页内容去重,本文提出先对网页内容进行分词处理,再通过SimHash算法来判断当前页面是否已经存在的方法。论文通过实验证明了在海量数据下,本文提出的URL去重方法具有更低的误判率,以及提出的网页内容去重方法相比其他的算法具有明显的速度优势。本文对现有的社交网络用户关系挖掘进行了深入研究,提出了一种基于Sim Rank的音视频数据同源性分析方法,该方法可以计算出音视频分享者之间的相似度,通过相似度我们可以来度量这些音视频分享者之间的同源性。在海量数据面前,原始的SimRank计算时间耗费十分巨大,本文对原始的SimRank进行了基于MapReduce的分布式实现与分析,发现在分布式环境下,SimRank存在计算速度慢、通信量大等问题。最后本文对原有的分布式SimRank算法进行了改进。为了验证改进结果,论文在3个真实网络数据集和1个网络爬虫获取的数据集进行了实验,证明了改进的分布式Sim Rank更适合海量数据计算。最后,本文设计并实现了一套音视频数据获取与同源性分析系统,采用真实的网络视频网站的数据进行验证,结果分析表明本文设计的分布式网络爬虫系统能全面、快速地获取到音视频数据,本文提出的同源性分析方法能够挖掘出符合直观感受的用户关联信息。整个系统能够为泛娱乐内容新生态的建设提供全面准确的数据支持。
海量学术资源的专家推荐系统分析与设计
这是一篇关于献内容挖掘,关系挖掘,专家推荐的论文, 主要内容为专家库是科技活动中最重要的信息支撑资源之一。随着科学技术的飞速发展,交叉学科的不断涌现,专家推荐的准确性和完整性将影响到出版活动、选题策划、科研立项等科技活动的最终质量和效果。 论文通过挖掘与分析海量学术信息资源的分类信息、关键词、主题词等基于内容的学科领域信息、确认专家身份,科学评价专家学术影响力,挖掘专家作者之间的合作关系,设计了面向多领域提供知识服务的专家推荐系统。论文开始介绍了论文的背景与意义,调研了国内外专家库研究现状,引出了论文研究目标,及论文结构。在众多专家的定义的基础上给出了本系统对于专家的定义,并从学术资源专家推荐系统的业务、数据挖掘、对外提供服务等方面进行分析,得出了海量学术资源的专家推荐系统的资源整合需求、数据挖掘需求及对外提供服务需求。在明确了需求后,从总体架构、资源整合、应用系统、对外提供的服务及安全体系方面进行设计,给出了海量学术资源的专家推荐系统构建方法。论文以某一领域的专家为例,从基于专家专长挖掘实现、专家身份认定、专家关系挖掘等方面进行基于学术资源的专家推荐系统的实例分析。最后总结论文的主要研究成果及不足。 论文从实际需求出发,挖掘与分析海量学术信息资源的分类信息、关键词等基于内容的学科领域信息、来帮助确认专家身份,挖掘专家作者之间的合作关系,设计了面向多领域提供知识服务的专家推荐系统,具有可实现性,已在公司研发部门进行开发实现,并小范围验证了可行性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://m.bishedaima.com/lunwen/54490.html