7篇关于数据集的计算机毕业论文

今天分享的是关于数据集的7篇计算机毕业论文范文, 如果你的论文涉及到数据集等主题,本文能够帮助到你

基于深度学习的乳腺癌病理图像细胞核检测算法研究

这是一篇关于有丝分裂细胞核,病理图像,目标检测,级联网络,并行网络,数据集的论文, 主要内容为癌症是世界上威胁人类健康的主要疾病之一,而女性乳腺癌已成为世界上新发病例占比最高的癌症,同时发病率和死亡率也在女性中最高。其中,有丝分裂细胞的数量是病理诊断和乳腺癌分级的重要指标。然而,乳腺癌切片中的有丝分裂检测目前主要为人工评价。一方面,这种方式十分繁琐且耗时;另一方面,这种方式受主观因素影响较大,结果的可复现性较差,不同的病理学家由于经验不同,量化结果也会有差异,这就有可能导致乳腺癌分级结果不同。针对以上不足,计算机辅助自动检测尤其是深度学习方法的引入近年来受到越来越多研究者的关注,它有助于减轻医生的工作量,提高诊断效率。目前,研究的不断深入,提出了大量的深度学习方法来实现乳腺癌切片中有丝分裂细胞核的自动检测,但由于有丝分裂的复杂性、其它形态相近的细胞干扰、单个切片中细胞密度极低的影响,目前的各种方法均未达到深度学习在其它领域的良好应用效果。本文通过基于深度学习的目标检测方法,构建用于乳腺癌有丝分裂细胞核检测的深度学习模型,使用计算机辅助自动检测技术代替病理学家人工识别,得到图像级别的分类结果,可以极大地节约人力资源和宝贵的医疗资源,辅助专业医生做出诊断,能够帮助医生更加快速准确的完成疾病的筛查工作,大幅度的提升诊断效率,具有良好的实践意义和医疗价值。论文的研究内容和主要创新点如下:(1)提出了基于两阶段级联网络的乳腺癌有丝分裂像检测算法RTR-Net,包含一阶段检测模型与二阶段分类网络两个部分。前一阶段使用融合了多个模块的主干网络提取特征,并使用融合多分支的分类子网来进行预测。后一阶段使用了多种改进的分类网络来进行精细化分类,提高了总体的检测性能。(2)提出了基于并行投票的乳腺癌有丝分裂像检测算法FSPR-Net。主要包含并行特征提取网络、投票机制和后处理分类网络。首先使用两个并行的骨干网络提取特征,接着通过投票机制对检测结果进行打分,并根据得分不同将不同的切片送入不同的后处理分类网络进行筛选。(3)与医院合作推出了新的乳腺癌有丝分裂像数据集GZMH。主要包含来自22名患者的55个全视野数字切片WSI,分为训练集和测试集,同时由资深病理医生进行标记和复核,保证了数据集的准确性。

基于J2EE的卫星数据产品库系统设计与实现

这是一篇关于卫星数据产品,元数据提取,数据集,档案制备的论文, 主要内容为空间科学卫星数据产品是科学卫星任务的直接产出,外太空科学探测对象特征的定量描述性和不可复述性,使得空间科学卫星数据产品具有重大的研究价值。本文将产品数据管理思想引入到卫星数据产品管理中,实现了卫星数据产品库管理系统,一方面帮助运维人员掌握数据产品的整体情况,及时发现并处理异常;另一方面帮助研究人员方便地获取数据产品并了解其关键特征。为实现卫星数据产品库管理系统,本文从以下两个方面着手:卫星数据产品的结构设计、卫星数据产品的科学管理。首先,通过对卫星数据产品的特征分析,并结合档案学相关的概念和方法,本文设计了数据产品和数据集两种主要结构。进一步地,将上述结构与对应的管理需求和方法相结合,就确定了系统设计的两大模块:数据产品管理模块、数据集管理模块。在数据产品管理模块中,重点是对数据产品元数据的管理,为此本文实现了基于规则模板的元数据提取方法和基于标注树的元数据动态扩展方法。在数据集管理模块中,产品文件的批量更新是关键的问题,为此本文提出了逻辑地址的概念,并结合匹配规则实现了数据集的产品文件快速地批量更新。然后,本文实现了一个系统原型,并对上述模块进行了软件集成与部署。在软件集成和部署过程中提出并应用了资源号和任务的概念,使服务器的计算资源得到充分利用,同时也提高了系统交互体验。最后,本文对系统原型进行了性能和接口测试,结果表明数据产品库管理系统能够较好地满足数据产品的科学管理需求。

面向开放数据集的学术知识图谱构建与应用研究

这是一篇关于开放科学,开放数据,数据集,学术知识图谱,学术资源本体的论文, 主要内容为开放科学运动不断发展,数据开放共享政策陆续被提出,我国开放数据发展呈增长趋势。开放数据不仅丰富了学术成果的类型和内容,包括数据集、数据论文、科学软件等,还为知识组织和学术服务带来了新的机遇和挑战。而学术知识图谱可以将学术论文、学者、期刊等学术知识作为实体建立联系进行组织梳理,通过学术知识图谱挖掘出大量有价值的信息以推动和加快知识科学成果的创新发展。但现有学术知识图谱对数据集,特别是中文数据集的关注还不够,需要进一步的研究和完善。在此背景下,本文将开放数据集作为学术资源实体纳入学术知识图谱,结合数据资源和数据引用的发展现状,构建适合收录中文数据资源的新型学术知识图谱。本文的工作包括:(1)确立数据源。调研国内外科学数据平台数据集、开放政府数据集、数据论文的发表情况及其元数据。针对数据论文与数据集之间的包含关系、论文对数据集和数据论文的引用关系等数据集与其他学术实体之间的关系等内容进行分析,用于后续的学术知识图谱模式层构建工作。(2)构建学术知识图谱的模式层。根据学术领域知识图谱的特点设计知识图谱构建方法和学术资源本体。根据所调研的学术知识图谱和开放数据集的特点复用相关本体,确定学术资源本体构建所需术语,对类、关系、属性进行定义。对构建完成的学术资源本体进行形式化表达和可视化展示。(3)填充知识图谱的数据层。使用网络爬虫抓取学术资源实体的元数据信息并进行知识抽取得到数据对象属性和数据类型属性等数据。将本学术知识图谱中的论文实体与其他平台中的论文实体知识融合,并对形式化表达进行RDF验证。(4)搭建知识图谱应用系统。将抓取的数据整理为CSV格式文件,通过Cypher语言导入Neo4j图数据库,并进行可视化展示。介绍了基于Cypher语言的知识查询与推荐,并对论文和数据集之间的引用关系进行知识推理。与其他同类的现有学术知识图谱进行了对比分析,印证本文所构建面向开放数据集的学术知识图谱有一定的创新性和独特性。本文主要提出将开放数据集与学术知识图谱相融合的新思路,构建新的学术资源本体,为开放数据的利用以及学术领域知识图谱的完善提供新的思路和参考。

基于深度学习的LOGO图像的分类及检测

这是一篇关于Logo分类,Logo检测,深度学习,数据集,电子商务的论文, 主要内容为随着计算机行业的不断发展,图像分类和目标检测技术已经在学校教育、城市交通、医疗卫生和消费娱乐等多个领域表现出优势。在消费娱乐领域,商品Logo图像数据大规模增长,研究者对电商平台中海量商品数据做出大量的相关视觉处理,为Logo分类与检测技术供了多样化的应用环境。常见的应用有侵权检测、商业广告分析、个性化商品推荐以及智慧交通标志识别,侵权检测是通过识别图像中的Logo来判定假冒伪劣产品;商业广告分析和商品推荐是将社交媒体信息和Logo图像分类结合起来实现的;路牌路标判定是通过对Logo图像进行检测实现的。互联网中商品种类繁多,品牌层出不穷,适合利用深度学习技术对Logo图像进行视觉相关研究。传统的Logo分类和检测技术大多以小数据集中图像的单一区域为研究的切入点,因其识别环境简单导致性能偏低。因此,根据现实场景的应用需要,本文以深度学习算法为基础,依次展开Logo图像的分类和检测工作。对于仅有标签标注的Logo数据,本文首先展开分类相关任务,随着任务的深入和数据集标注完善,进而展开更复杂的检测任务,主要包含以下三个方面:(1)Logo分类和检测数据集的构建。现实生活中存在海量的Logo图像数据,但是公开的Logo数据集存在一些缺点(样本缺乏、较多噪声),成为深度学习算法研究的瓶颈。因此,本课题通过采集数据、清理数据、标注数据和分析数据四个步骤,构建了大规模的Logo-2K+分类数据集和Logo Det-3K检测数据集,将数据集公开供广大同行使用。(2)Logo细粒度分类算法设计与实现。由于类别数量过多,Logo数据呈现类间差异小的特点,使得多分类更加具有难度。另外,由于数据集是从现实中收集的,存在目标多尺度、遮挡和背景干扰等现象。因此,本文出一种辨别性区域引导和增强网络,采用自监督的训练方式能够仅在标签信息的监督下,在复杂背景图像中定位出不同尺度的Logo区域,然后在区域特征的引导下进行增强,从而构建关键区域多特征集合实现更精准的Logo细粒度分类。(3)Logo检测算法设计与实现。由于Logo图像场景的多样性、商标类别的丰富性、海量商品数据处理的困难性和数据样本的不均衡性,Logo检测具有很大的挑战。本文结合图像特点,出Logo-Yolo检测算法,以解决多尺度和不均衡等问题,实现更精准的检测效果。具体地,本文首先采用K-means聚类统计方法重新计算Logo Det-3K的锚框以选择最佳尺寸,以YOLOv3为特征取框架解决Logo图像中多尺度目标的问题,引入Focal Loss分类损失解决样本不平衡的问题,同时引入CIoU loss回归损失以获得更准确的回归结果。综上,针对出的Logo分类和检测方案,在本文构建的Logo数据集(Logo2k+和Logo Det3k)和公开的(Openlogo和Flicker-32)数据集上进行了广泛的实验评估,实验结果验证了所方法的有效性和Logo数据集的挑战性。本文实验部分充分说明了细粒度分类和检测技术的可行性,为Logo图像识别算法的研究奠定了一定的基础。

无人机遥感影像数据管理与可视化系统的设计与实现

这是一篇关于无人机遥感,数据管理,元数据,数据集,系统集成的论文, 主要内容为近年来,随着无人机技术的快速发展以及各类传感器的相继问世,无人机遥感在农业、林草业、电力、测绘、灾害应急响应等多个领域得到广泛应用,高时空分辨率以及高光谱分辨率数据呈几何级数增长。如何高效、快捷、有效管理这些多源、多尺度、多时相的无人机遥感数据,对无人机遥感的应用研究具有重要现实意义。本文聚焦无人机多源遥感数据的组织、管理与共享,开展基于无人机可见光、多光谱以及高光谱数据的管理研究,以期实现无人机遥感数据的高效存储、快速查找、在线浏览与便捷共享。主要研究内容及结论如下:(1)无人机多源遥感数据的组织与管理。从影像数据的组织管理与元数据标准制定角度出发,针对影像数据的存储结构多元化以及数据存储命名不规范等问题,设计了一种面向无人机多源遥感数据管理的数据组织目录结构及相应的数据存储命名规范;结合相关行业标准,对元数据的详细内容进行设计,通过算法设计,借助Python地理位置信息库完成多源异构遥感数据的自动提取,将提取到的元数据信息批量插入到数据库中进行综合管理,实现了元数据的精确表达和元数据内容的快速检索。(2)公开数据集的制作与发布。结合新疆地区农作物实际种植情况,选择棉花为数据采集对象,通过大疆M600搭载Rikola高光谱传感器,分别获取棉花苗期、蕾期、花期、盛花期、铃期、盛铃期以及吐絮期共计7期高光谱数据,经数据预处理操作,得到7个生育期的棉花高光谱正射影像。利用地面ASD数据对机载棉花高光谱数据的光谱精度进行验证,结果表明:Rikola成像光谱仪和ASD地物光谱仪波长在503～850nm区间,反射率曲线趋势具有良好的一致性,“绿峰特征”,“红谷特征”,“红边特征”三种典型光谱特征表现基本吻合。该数据集不仅可以较好地反映棉花不同生长周期的光谱特征变化规律,还能够为棉花的低空遥感精细监测提供样本数据。(3)无人机多源遥感数据管理与可视化系统实现。针对无人机多源遥感数据组织管理困难,数据查找效率低,数据分散等问题,开发了一套基于无人机可见光、多光谱以及高光谱类型的数据管理与可视化系统。使用关系数据库My SQL以及文件管理系统对元数据和影像数据进行集中存储,采用B/S模式架构,依据原始数据中提取到的元数据信息,构建基于元数据内容的模糊检索以及空间索引。通过Web GIS技术实现影像服务的发布与调用,实现无人机遥感影像的在线浏览与显示。

基于文本的农作物属性抽取技术研究

这是一篇关于知识图谱,数据集,模型训练,农作物属性抽取的论文, 主要内容为知识图谱是谷歌首先使用在自家搜索引擎中,旨在实现大规模搜索个性化推荐的一项伟大的发明,除此之外,在文本语义理解和知识问答对话问题上也能起到很好的辅助作用。中国农业科学叙词表是诸多农业领域专家共同编写的农业领域百科辞典,适合以它为基础构建农业知识图谱,但这样构建的农业知识图谱只有农作物实体和基本的用、代、属、分、参等关系,并不包含农作物属性。为进一步完善农业知识图谱,需要将农作物属性补充进去。鉴于人工方式费时费力,研究基于文本的大规模自动化属性抽取技术对完善农业知识图谱具有十分重要的意义。本文在根据农业叙词表构建的农业知识图谱基础上,构建了农作物属性抽取数据集,提出并训练了Bert-Bi-LSTM-CRF属性抽取模型,设计和实现了一个农作物属性抽取系统,将文本中的农作物属性和属性值以三元组的形式提取出来补充到农业知识图谱。具体工作如下:(1)构建了农作物属性抽取数据集。数据集以中国农业科学叙词表中收录的农作物实体为主体,使用python爬虫技术从百度百科获取农作物实体对应词条下的农作物属性文本语料,经过数据清洗后使用BIO标注方法,构造了生长环境、实体名、种类、产地、花期、果期和颜色等七种属性标签,在doccano平台上进行数据标注工作。构建的数据集共有农作物实体数据1727条,字符144943个。(2)提出了Bert-Bi-LSTM-CRF农作物属性识别模型。针对训练数据不够和训练时间长的问题,将无监督语料上预训练的Bert嵌入向量作为Bi-LSTM-CRF的输入,提出了农作物属性实体识别的Bert-Bi-LSTM-CRF模型,在农作物属性抽取数据集上微调训练。实验表明模型Bert-Bi-LSTM-CRF的F1值为0.8319,综合对比性能优于Bi-LSTM、CNN-LSTM和Bi-LSTM-CRF三种模型。(3)设计并实现了一个能够自动化抽取农作物属性及其属性值的农作物属性抽取系统。其主要由数据导入和属性抽取两部分组成,通过运行模型Bert-Bi-LSTM-CRF进行推断,以三元组的形式输出农作物、农作物属性和农作物属性值。

汉语越南语双语新闻事件关联分析

这是一篇关于双语新闻,数据集,新闻事件,事件归类,关联分析的论文, 主要内容为随着一带一路国家战略实施,我国与越南的交流与合作日益密切,及时掌握两国新闻事件动态意义重大。互联网上中越两国媒体的新闻报道,为全面了解两国相关事件提供了全面信息。本文研究汉语越南语双语新闻事件关联分析方法,旨在利用互联网上的汉越双语新闻,发现中国和越南共同关注的热点事件以及这些事件之间的关联。通过汉越双语新闻找到中越两国共同关注的事件,并对事件进行关联分析所面临的关键问题是:1.目前没有针对汉语-越南语双语新闻事件关联分析进行训练和评价的公开数据集,在模型训练和方法效果评价上缺乏数据支撑。2.中越两国媒体在对同一事件进行报道时各自的侧重点和态度不同。如何对报道同一事件的双语新闻进行归类是一大难点。3.新闻事件并不是孤立存在的,一个事件的发生会对其他事件造成影响。因此如何计算新闻事件的影响力是一大难点。本文针对这些关键问题对构建汉语-越南语双语事件关联分析数据集,汉越双语新闻事件归类方法,汉越双语事件关联分析方法展开研究,取得了如下成果(1)构建了汉语越南双语事件关联分析数据集。构建小规模汉语-越南语双语句对齐语料,利用汉语-越南语双语句对齐语料构建双语向量空间,将双语新闻置于同一特征空间下统一表征。人工构建了 20个事件簇用于评价汉越双语新闻事件归类效果。构建了 600个相关事件新闻集合和600个无关事件新闻集合用于评价跨语言新闻事件关联分析方法的效果。(2)提出了汉语-越南语双语新闻事件归类方法。该文首先利用汉语-越南语双语句对齐语料构建了基于词义的汉越双语向量空间,将汉语和越南语双语新闻置于同一特征空间下统一表征。针对新闻事件的特点,该文利用基于密度和事件要素的新闻聚类方法对新闻进行归类,将报道同一事件的新闻聚类到同一簇中。实验结果表明该方法有效提升了跨语言新闻事件归类的效果。(3)提出了汉越双语新闻事件关联分析方法。该文提出了基于因子图模型的局部密切度传播算法。首先使用双语主题概率模型,从双语文档中获得双语主题以及主题概率分布。然后基于新闻事件的文本相似度构建事件因子图模型,在因子图上对相互关联的事件使用局部密切度传播算法计算某一主题下所有相互关联的事件间的影响力。最后得到不同主题下事件间的影响力拓扑图。实验结果表明该文提出的方法相比相似度计算和词语共现的方法取得了更好效果。(4)利用JavaEE设计并实现了汉越双语事件归类和关联分析的原型系统。通过该系统用户可以查看中国和越南互联网上新闻;查看中越两国共同关注的事件以及报道这些事件的新闻;查看双语新闻事件之间的关联关系。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：代码助手，原文地址：https://m.bishedaima.com/lunwen/46304.html