聚焦爬虫技术研究
这是一篇关于垂直搜索引擎,聚焦爬虫,信息检索,链接分析,内容分析,超文本分类的论文, 主要内容为万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需要的信息需要耗费大量的时间,造成了“信息过载,知识匮乏”的问题。为了解决这个问题,在Web信息检索领域提出了面向主题的聚焦爬虫技术。聚焦爬虫根据用户定义的目标主题,智能化的从Web上收集主题相关的网页集合,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域,如基于Web的行业分析、自动构建专题数字图书馆等,主题驱动的聚焦爬虫系统都富有应用前景。 首先研究了搜索引擎和爬虫的技术原理,工作流程以及典型的聚焦爬虫体系结构,然后重点分析了聚焦爬虫的主题定义,网页的链接分析算法和内容分析算法,主题爬行策略,以及存在的主要问题。 根据HITS算法善于发现主题社区,但是容易发生主题漂移;最佳优先算法由于忽视超链接信息容易陷入局部最佳子空间的问题,提出了新的主题综合爬行策略。该策略综合利用超链接价值和内容主题相关性价值计算网页的综合价值并排序。通过利用主题页面分布特性,采用HITS算法计算网页的超链接价值,发现并抓取主题社区及主题相关网页,并通过基于向量空间模型的网页主题相关度判定算法精确地量化了网页与主题的相关程度,避免爬行过程中容易出现的主题漂移问题,提高了爬虫系统的收获率。针对聚焦爬虫对目标主题的定义,采用文本分类方法建立主题特征词库,并提取主题特征用于计算网页的主题相关度。 最后设计了基于综合爬行策略的聚焦爬虫的系统原型,改进了现有的聚焦爬虫的体系结构,该系统实现了主题Web资源的智能化收集。通过实验测试得到爬虫系统的收获率,验证了综合爬行策略的有效性。
基于文献计量的国内外数字人文研究的比较分析
这是一篇关于数字人文,文献计量,国内外对比,主体分析,内容分析的论文, 主要内容为随着信息技术的发展,人类文化正在向数字化转型,进入一种新的形态,在这场数字新形态的变革中,数字人文的开放性特征凸显出现,并发挥了关键的作用。数字人文的开放性,体现在多个方面,不仅打破了学科边界,将科技融合互通,还将人文学科与人类生活日常相联系。数字人文是在人类文化进行数字化转型过程中的必经之路,建设了一种新的学术与文化机制。数字人文的研究不仅在国内受到重视,在国际学术界也受到越来越多学者的关注,因此对国内外数字人文的研究进展、核心作者和核心机构的分布合作情况、研究热点与前沿发展趋势等一系列问题的探究就显得十分重要,通过国内外在数字人文领域内的研究对比分析,发现其研究异同,对我国数字人文今后进一步的发展也具有重要意义。本文以中国知网(CNKI)和Web of Science数据库获取的近十年数字人文主题的核心期刊数据为数据源,综合运用文献调研法、文献计量法、科学知识图谱、比较分析法等研究方法,利用Citespace、Gephi、COOC计量工具,从国内外数字人文研究的主体分析和内容分析两部分对近十年国内外数字人文的研究进行了比较系统的梳理和对比,并针对我国数字人文的发展现状提出了相应的思考与建议。本研究的具体内容分为以下几方面:首先,通过对国内外近十年数字人文文献发文量进行统计分析,发现国外对数字人文的研究早于国内,产出成果相对更多;接着从载文量和被引量两方面综合衡量国内外的重点期刊分布情况,以及对期刊的学科分布进行分析,发现我国数字人文研究主要分布在图书馆、情报与文献学学科,而国外较为均匀的分布在图书馆、情报与文献学,文学,计算机科学技术等学科。其次,运用综合指数法界定出国内夏翠娟、刘炜、欧阳剑,国外Poole,Alex H.、Chen,Chih-Ming等多位核心作者,同时界定出国内南京大学、南京农业大学、上海图书馆,国外University of London、King’s College London等多个核心机构,并从核心作者、核心机构的分布情况及合作情况来比较国内外研究主体的异同,发现国内在该领域的研究力量更集中且合作程度相对紧密。再次,通过奠基性文献和高被引文献挖掘国内外数字人文研究的知识基础,发现在研究初期,国内更重视技术研究,国外更重视理论研究,国内外同时关注古籍数字化、可视化等方面的研究;接着从关键词共现、高频关键词、关键词聚类探究出国内图书馆、知识图谱,国外远读、文化遗产等主题热点。最后,从知识演进的时间线图谱中反映国内外数字人文研究的发展脉络,发现国内在知识组织和档案学,国外在文本挖掘、学术图书馆和社交媒体方面的研究是近年来领域内的趋热研究,接着通过突现词来识别领域内的研究前沿,从三个阶段分析国内外数字人文的发展演变过程,并预测档案学、人文教育等研究可能成为未来数字人文的研究热点。通过国内外数字人文研究的对比分析,结合我国数字人文发展的特点,认为可以从促进数字人文领域合作研究、推进图书馆数字人文实践、构建数字人文教育体系三方面来促进我国数字人文研究与实践的进一步发展。
基于知识图谱的我国排球教学研究的可视化分析
这是一篇关于排球教学研究,文献计量,内容分析,知识图谱,CiteSpace的论文, 主要内容为随着我国教育改革力度的加大,有关排球教学的文献日益增多。然而,面对浩如烟海的文献,存在以下疑问:2011-2020年我国排球教学研究文献外部特征如何?我国排球教学研究热点和前沿是什么?我国排球教学研究趋势是怎样的?研究存在哪些问题?未来如何开展研究?鉴于上述研究问题,传统的统计分析方法往往需要查阅该领域几乎所有的文献,许多文献的整理和归纳既费时又费力。而传统的思辨研究方法容易使研究者陷入主观认知,研究者会完全根据自己的经验来分析和论证,缺乏定量分析会有失客观。因此,本研究将构建一个综合的分析框架,揭示2011-2020年我国排球教学研究的基本特征和隐含规律。一方面能够弥补相关缺陷,另一方面有助于把握近年来我国排球教学研究的发展状况与方向,为更好地促进排球教学研究的发展和创新提供依据和参考。从历史和现实发展的角度来看,梳理和总结现有的科研成果,对我国排球教学研究进行自我反思和自我批判,使其永葆生机活力,具有重要的理论价值和现实意义。首先,本研究选取2011-2020年中国知网、万方、维普数据库收录的1750篇有关排球教学的期刊论文作为调查对象,运用文献资料法、文献计量法和内容分析法,借助Cite Space5.5.R2、BICOMB 2.01和Excel 2019软件,对文献进行定量和定性分析。其次,从年代、期刊、基金、作者、机构、高被引文献等维度分析文献外部特征,从整体上对现有研究有一个全面的把握。再次,对文献内容及其关键词进行深入分析,挖掘并解读研究热点和前沿。最后,在了解我国排球教学研究的发展状况和研究进展的基础上,认清未来的发展走势,找出存在的问题,并针对这些问题提出建议,使我国排球教学研究的发展契合客观现实的需要。研究结论如下:(1)通过分析文献外部特征发现:我国排球教学研究发展处于日渐成熟时期,文献增长呈线性直线增长趋势。期刊分布不完全符合布拉德福定律,但符合文献信息集中与离散分布规律,期刊核心效应不明显。基金资助的方式表现为分散型和自发性。作者分布不符合洛特卡定律,高校是主要研究力量,作者和机构发文量呈现两极分化倾向,高度集中又高度分散,独立研究和小团体现象明显。高被引文献的研究主题主要聚焦在排球教学现状与策略研究、不同教学理念和教学方法的应用研究、可行性研究、培养学生学习兴趣的研究等方面。(2)通过分析研究热点和前沿发现:我国排球教学研究热点主要集中于九个研究主题,即排球课程研究、排球教学现状及对策研究、排球人才培养研究、排球教学与训练研究、排球运动损伤研究、排球教学模式研究、排球教学方法研究、排球教学评价研究和排球教学改革研究。我国排球教学研究前沿分为两类,一类是渐弱型前沿包括软式排球、运动损伤、排球普修课、硬式排球、垫球,一类是渐强型前沿包括气排球、教学策略。(3)未来我国排球教学研究将朝着排球教学改革研究、高素质排球人才培养研究、网络教学平台辅助排球教学研究、“教-学-评”一致性研究、气排球在学校体育的应用研究等五个趋势发展。但也存在具有不均衡性和差异性,研究主体缺乏持续性且合作不足,研究存在同质化现象,研究方法单一且表述不严谨,研究内容不够深入具体等问题。为了进一步完善我国排球教学研究,有必要加强交流合作,拓展研究视角,推进跨界研究,完善研究方法,聚焦排球教学现代化研究。
基于直引内容的学科领域交叉主题演化分析研究
这是一篇关于学科领域交叉,文献直引,内容分析,主题识别的论文, 主要内容为在当今大科学时代背景下,科学技术日新月异,人类所面临的科学研究问题也越来越多元化、复杂化,仅仅依靠单一学科很难从根本上解决,所以跨学科的知识交流与整合日益频繁,学科间的壁垒被打破。学科交叉主题作为学科融合的最核心映射,有效识别并分析其演化趋势不仅有利于打破传统的学科界限,挖掘新的学科生长点,而且还有助于研究者梳理由基础学科建立的新知识关联体系,进一步推动学科的协同、发展、融合、交叉与创新。但现有学科交叉主题演化研究较少,尚未建立完整的微观层面学科交叉主题演化分析方法体系。因此,本研究构建了结合引文内容分析的学科交叉主题演化模型,在使用文献直引发现高度学科领域交叉文献的基础上,进一步利用文本挖掘技术识别交叉文献主题,判定主题所处的发展阶段,在动态变化中把握交叉领域的发展趋势,并以图书情报学与计算机科学共同研究领域知识图谱为例,验证模型可行性。具体来说,本研究主要分为三个部分:第一,基于对国内外研究现状的梳理,首先对学科领域交叉演化分析技术路线构建的基本问题,包括定义、方法、测度指标等做了相关阐述。第二,利用“文献直引”,结合“LDA主题模型”,引入时间因素,综合设计学科领域交叉演化分析技术路线,在动态变化中深入挖掘交叉领域文献内部知识,并科学判定交叉分支领域所处发展阶段(潜在、发展、成熟、衰退)。第三,以Web of Science数据库中图书情报学与计算机科学在知识图谱领域的交叉文献为例验证模型的可行性。结果发现,基于直引内容的学科领域交叉演化分析技术路线是切实可行的。文献直引不依赖第三方,直接反映文献之间的传承关系,在探测知识交流转移中具有一定的天然优势;LDA主题模型理论完备,结构清晰,且有很好的泛化能力,在主题挖掘时可以最大程度保留学科内部关系。论文将这两个方面有机统一起来,发挥各自的优势,相比于传统的单一分析方法而言,更加科学易懂且稳定便捷。
基于直引内容的学科领域交叉主题演化分析研究
这是一篇关于学科领域交叉,文献直引,内容分析,主题识别的论文, 主要内容为在当今大科学时代背景下,科学技术日新月异,人类所面临的科学研究问题也越来越多元化、复杂化,仅仅依靠单一学科很难从根本上解决,所以跨学科的知识交流与整合日益频繁,学科间的壁垒被打破。学科交叉主题作为学科融合的最核心映射,有效识别并分析其演化趋势不仅有利于打破传统的学科界限,挖掘新的学科生长点,而且还有助于研究者梳理由基础学科建立的新知识关联体系,进一步推动学科的协同、发展、融合、交叉与创新。但现有学科交叉主题演化研究较少,尚未建立完整的微观层面学科交叉主题演化分析方法体系。因此,本研究构建了结合引文内容分析的学科交叉主题演化模型,在使用文献直引发现高度学科领域交叉文献的基础上,进一步利用文本挖掘技术识别交叉文献主题,判定主题所处的发展阶段,在动态变化中把握交叉领域的发展趋势,并以图书情报学与计算机科学共同研究领域知识图谱为例,验证模型可行性。具体来说,本研究主要分为三个部分:第一,基于对国内外研究现状的梳理,首先对学科领域交叉演化分析技术路线构建的基本问题,包括定义、方法、测度指标等做了相关阐述。第二,利用“文献直引”,结合“LDA主题模型”,引入时间因素,综合设计学科领域交叉演化分析技术路线,在动态变化中深入挖掘交叉领域文献内部知识,并科学判定交叉分支领域所处发展阶段(潜在、发展、成熟、衰退)。第三,以Web of Science数据库中图书情报学与计算机科学在知识图谱领域的交叉文献为例验证模型的可行性。结果发现,基于直引内容的学科领域交叉演化分析技术路线是切实可行的。文献直引不依赖第三方,直接反映文献之间的传承关系,在探测知识交流转移中具有一定的天然优势;LDA主题模型理论完备,结构清晰,且有很好的泛化能力,在主题挖掘时可以最大程度保留学科内部关系。论文将这两个方面有机统一起来,发挥各自的优势,相比于传统的单一分析方法而言,更加科学易懂且稳定便捷。
面向社交标签系统的推荐技术研究与实现
这是一篇关于社交标签系统,推荐,内容分析,标签拓展,TECA的论文, 主要内容为在当今飞速发展的互联网时代,类似豆瓣读书,CiteULike等社交标签系统(Social Tagging System)越来越多的融入人们生活中。这些系统给人们带来便捷的知识分享的同时,也带来了信息过载的问题。而推荐技术能够在大量的信息中智能地为用户提供感兴趣的信息,发现潜在的朋友。因此,面向社交标签系统的推荐技术也受到了越来越多的关注。然而社交标签系统相比传统的推荐系统,不仅有用户和资源,还增加了标签这个新的度量。因此这类系统中推荐技术面临的挑战是不同的,我们将其归类为三方面的问题。首先社交标签系统中用户在发布或者评论资源时,能够使用任意的描述词作为标签来标注资源,巨大的自由性和开放性导致了标签的泛滥,降低了系统的标签质量。其次社交标签系统中频繁的新资源发布造成的冷启动问题,以及用户使用标签的稀疏性,也是这类系统中的推荐技术需要解决的。而且这类系统中的资源如文本,图像等是有潜在类别属性的,传统推荐技术建立的统一模型在适用性上也存在不足。因此,为了解决传统推荐技术面临的推荐标签质量不高,稀疏冷启动和模型适用性问题,本文提出了一种新型的融合内容分析与标签拓展的推荐方法TECA(Tag Expansion and Content Analysis),目的是为新资源推荐标签和用户,研究的资源是文本类型。它首先对资源分类训练形成分类器,对每一类别的资源单独建模,避免了统一模型的适用性问题。其次在用户建模时,通过邻居用户的标签来拓展用户标签矩阵,缓解了数据稀疏性的问题。而且它推荐的标签结合历史标签集和资源自身的内容分析,保障了推荐的标签质量。在推荐的过程中,主要是从内容上挖掘资源的潜在主题,避免了新资源缺少历史信息的冷启动问题。本文基于CiteULike的真实数据进行了相关推荐实验,并与传统的协同过滤推荐技术进行对比。实验表明TECA在标签推荐和用户推荐的效果上都比协同过滤方式更优。而且本文也通过实验验证了TECA在模型适用性,数据稀疏性方面带来的提升。另一方面,本文对于TECA中的模型参数选择也进行了相关实验。
基于知识图谱的我国排球教学研究的可视化分析
这是一篇关于排球教学研究,文献计量,内容分析,知识图谱,CiteSpace的论文, 主要内容为随着我国教育改革力度的加大,有关排球教学的文献日益增多。然而,面对浩如烟海的文献,存在以下疑问:2011-2020年我国排球教学研究文献外部特征如何?我国排球教学研究热点和前沿是什么?我国排球教学研究趋势是怎样的?研究存在哪些问题?未来如何开展研究?鉴于上述研究问题,传统的统计分析方法往往需要查阅该领域几乎所有的文献,许多文献的整理和归纳既费时又费力。而传统的思辨研究方法容易使研究者陷入主观认知,研究者会完全根据自己的经验来分析和论证,缺乏定量分析会有失客观。因此,本研究将构建一个综合的分析框架,揭示2011-2020年我国排球教学研究的基本特征和隐含规律。一方面能够弥补相关缺陷,另一方面有助于把握近年来我国排球教学研究的发展状况与方向,为更好地促进排球教学研究的发展和创新提供依据和参考。从历史和现实发展的角度来看,梳理和总结现有的科研成果,对我国排球教学研究进行自我反思和自我批判,使其永葆生机活力,具有重要的理论价值和现实意义。首先,本研究选取2011-2020年中国知网、万方、维普数据库收录的1750篇有关排球教学的期刊论文作为调查对象,运用文献资料法、文献计量法和内容分析法,借助Cite Space5.5.R2、BICOMB 2.01和Excel 2019软件,对文献进行定量和定性分析。其次,从年代、期刊、基金、作者、机构、高被引文献等维度分析文献外部特征,从整体上对现有研究有一个全面的把握。再次,对文献内容及其关键词进行深入分析,挖掘并解读研究热点和前沿。最后,在了解我国排球教学研究的发展状况和研究进展的基础上,认清未来的发展走势,找出存在的问题,并针对这些问题提出建议,使我国排球教学研究的发展契合客观现实的需要。研究结论如下:(1)通过分析文献外部特征发现:我国排球教学研究发展处于日渐成熟时期,文献增长呈线性直线增长趋势。期刊分布不完全符合布拉德福定律,但符合文献信息集中与离散分布规律,期刊核心效应不明显。基金资助的方式表现为分散型和自发性。作者分布不符合洛特卡定律,高校是主要研究力量,作者和机构发文量呈现两极分化倾向,高度集中又高度分散,独立研究和小团体现象明显。高被引文献的研究主题主要聚焦在排球教学现状与策略研究、不同教学理念和教学方法的应用研究、可行性研究、培养学生学习兴趣的研究等方面。(2)通过分析研究热点和前沿发现:我国排球教学研究热点主要集中于九个研究主题,即排球课程研究、排球教学现状及对策研究、排球人才培养研究、排球教学与训练研究、排球运动损伤研究、排球教学模式研究、排球教学方法研究、排球教学评价研究和排球教学改革研究。我国排球教学研究前沿分为两类,一类是渐弱型前沿包括软式排球、运动损伤、排球普修课、硬式排球、垫球,一类是渐强型前沿包括气排球、教学策略。(3)未来我国排球教学研究将朝着排球教学改革研究、高素质排球人才培养研究、网络教学平台辅助排球教学研究、“教-学-评”一致性研究、气排球在学校体育的应用研究等五个趋势发展。但也存在具有不均衡性和差异性,研究主体缺乏持续性且合作不足,研究存在同质化现象,研究方法单一且表述不严谨,研究内容不够深入具体等问题。为了进一步完善我国排球教学研究,有必要加强交流合作,拓展研究视角,推进跨界研究,完善研究方法,聚焦排球教学现代化研究。
聚焦爬虫技术研究
这是一篇关于垂直搜索引擎,聚焦爬虫,信息检索,链接分析,内容分析,超文本分类的论文, 主要内容为万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需要的信息需要耗费大量的时间,造成了“信息过载,知识匮乏”的问题。为了解决这个问题,在Web信息检索领域提出了面向主题的聚焦爬虫技术。聚焦爬虫根据用户定义的目标主题,智能化的从Web上收集主题相关的网页集合,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域,如基于Web的行业分析、自动构建专题数字图书馆等,主题驱动的聚焦爬虫系统都富有应用前景。 首先研究了搜索引擎和爬虫的技术原理,工作流程以及典型的聚焦爬虫体系结构,然后重点分析了聚焦爬虫的主题定义,网页的链接分析算法和内容分析算法,主题爬行策略,以及存在的主要问题。 根据HITS算法善于发现主题社区,但是容易发生主题漂移;最佳优先算法由于忽视超链接信息容易陷入局部最佳子空间的问题,提出了新的主题综合爬行策略。该策略综合利用超链接价值和内容主题相关性价值计算网页的综合价值并排序。通过利用主题页面分布特性,采用HITS算法计算网页的超链接价值,发现并抓取主题社区及主题相关网页,并通过基于向量空间模型的网页主题相关度判定算法精确地量化了网页与主题的相关程度,避免爬行过程中容易出现的主题漂移问题,提高了爬虫系统的收获率。针对聚焦爬虫对目标主题的定义,采用文本分类方法建立主题特征词库,并提取主题特征用于计算网页的主题相关度。 最后设计了基于综合爬行策略的聚焦爬虫的系统原型,改进了现有的聚焦爬虫的体系结构,该系统实现了主题Web资源的智能化收集。通过实验测试得到爬虫系统的收获率,验证了综合爬行策略的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工厂 ,原文地址:https://m.bishedaima.com/lunwen/49134.html