推荐8篇关于集成模型的计算机专业论文

今天分享的是关于集成模型的8篇计算机毕业论文范文, 如果你的论文涉及到集成模型等主题,本文能够帮助到你

中国陆地高分辨率太阳散射辐射数据集重建及其变化特征分析

这是一篇关于地表太阳散射辐射,集成模型,高分辨率,时空分析,中国的论文, 主要内容为地表太阳散射辐射作为地表太阳辐射的重要组成部分,是陆地生态系统的碳交换、光伏发电和可再生能源生产的关键要素。由于观测站点分布稀疏、仪器设备价格昂贵以及维护成本高等因素,当前国内散射辐射观测数据尚不能满足太阳辐射研究和实际应用的需求。针对我国缺乏长时间序列、高质量的散射辐射观测数据的现状,本研究拟发展一套集成化的广义相加模型(GAM),以ERA5(European Centre for Medium-Range Weather Forecasts Reanalysis)和MERRA-2(The Modern Era Retrospective-Analysis for Research and Applications-Version 2)再分析产品的陆地和大气参数为集成模型的输入变量,构建中国区域1982～2020年日均地表太阳散射辐射数据集(10km×10km)。首先,利用观测数据和输入变量匹配而成的样本数据对模型进行训练,再利用中国气象局17个台站的散射辐射观测数据对模型估算值进行精度验证,并采用精度指标来评估集成模型的精度和适用性。然后,选取国内外应用较为广泛的四种地表太阳散射辐射产品,包括CERES(Clouds And The Earth’s Radiant Energy System),ERA5,Ji EA和CHSSDR(High Resolution(10km×10km)Daily Surface Solar Diffuse Radiation Dataset in China),利用地面观测数据进行全方位、多角度的精度评估和误差分析。最后,对中国区域地表太阳散射辐射的时空变化特征进行分析。本研究既能为地表太阳散射辐射的估算方法提供借鉴,也有利于进一步精细化理解中国区域地表太阳散射辐射量的变化趋势。本研究所构建的中国区域地表太阳散射辐射数据集已发布在https://doi.org/10.6084/m9.figshare.19352036.v1,用户可通过该链接获取数据。本研究主要结论如下:(1)六种基础机器学习模型(卷积神经网络模型、深度神经网络模型、梯度增强决策树、极限梯度增强算法、随机森林和支持向量机)和集成模型(GAM)的十折交叉验证结果表明:集成模型的性能最佳,其R、RMSE(均方根误差)和MAE(平均绝对误差)值分别是0.88,19.54 W m-2和14.87 W m-2。同时,集成模型对六种基础机器学习模型出现的低值高估和高值低估现象有一定改善。(2)四种散射辐射产品与地面观测数据的直接验证结果表明:CERES和ERA5的散射辐射数据精度较差;CERES存在较明显的高估现象(MBE=20.74 Wm-2);ERA5则严重低估了散射辐射值(MBE=-15.47 Wm-2);Ji EA存在微弱的低估现象(MBE=-5.49 Wm-2)。CHSSDR表现最佳(MBE=2.58 Wm-2),R值和GPI值最高且偏差最小。CHSSDR的总体相关系数R值为0.87,MAE值为15.06 Wm-2,RMSE值为24.77 Wm-2,GPI值为5.14。在站点尺度上的验证结果表明:CHSSDR在所有站点的R值最高和偏差最小(Rmax=0.93,MAE=11.97 Wm-2和RMSE=15.98 Wm-2)。除CHSSDR之外,精度由高到低的产品分别为Ji EA、CERES和ERA5。在不同干湿分区对四种产品进行精度验证,CERES和CHSSDR在半湿润地区的表现最佳,在半干旱地区表现欠佳;而ERA5则在半干旱地区的精度最高,在半湿润地区的表现较差。在不同干湿分区,CHSSDR的精度最佳(MAE=12.34 Wm-2和RMSE=16.77 Wm-2)。在季节尺度上的验证结果表明:CERES、ERA5、Ji EA和CHSSDR在冬季表现尚可,在夏季表现较差。就产品整体精度而言,CHSSDR的精度最佳(SDmin=23.38 Wm-2,MAEmin=9.93 Wm-2和RMSEmin=13.22 Wm-2)。本研究在不同云量覆盖和气溶胶浓度条件下对四种散射辐射产品进行误差分析,CHSSDR的散射辐射产品的相关性是随着云量的增加而降低,其他的产品相关性随着云量的增加产生了一定的波动。四种散射辐射产品的偏差(MAE和RMSE)均随着云量和气溶胶浓度的增加而增加的。相较于其他产品,CHSSDR的R值最高和偏差最低。由此可见,CHSSDR数据整体的稳定性较好。本研究利用交叉验证的方法探究产品之间的差异,四种产品之间的相关性在东北平原地区、西北地区、内蒙古地区和华北地区普遍较高。在中国东南部地区相关性较差,这可能和该地区濒临海洋,水源充足,云雨活动频繁等原因有关,这样会导致产品的精度降低。(3)中国区域地表太阳散射辐射值的年均值变化范围在59.13 W m-2～104.65 W m-2之间;1982～2020年的地表太阳散射辐射的总年均值为79.39 Wm-2。散射辐射值的相对高值区主要分布在华南地区、云南及周边地区、长江中下游地区、华北地区、青藏地区和四川盆地;低值区分布在东北平原和内蒙古地区。由于太阳高度角的变化,中国区域散射辐射在空间上具有较明显的季节变化特征:从春季到夏季呈现递增趋势,夏季到冬季呈现递减趋势。(4)1982～2020年,中国区域地表太阳散射辐射值呈现轻微的下降趋势(-0.127W m-2yr-1)。从空间上看,呈下降趋势的地区主要分布在云南及周边地区、黄土高原地区、青藏高原地区和东北地区的散射辐射;东部地区的地表太阳辐射趋势变化显著度大于西部地区;华南地区和长江中下游地区的上升趋势较明显,其MK值分别为2.51和2.65,Sen’s slope值分别为0.11 W m-2yr-1和0.13 W m-2yr-1。

深度学习诊断肝局灶性病变的Meta分析及囊型肝包虫病的目标检测算法研究

这是一篇关于囊型肝包虫病,肝局灶性病变,图像分割,Yolov5,集成模型的论文, 主要内容为目的:1、使用诊断性Meta分析的方法探索深度学习技术与传统机器学习方法对肝局灶性病变中的诊断价值。2、基于Meta分析的结果进行囊型肝包虫病目标检测算法的开发与研究,实现在超声图像上对囊型肝包虫病的定位与鉴别,使患者及时的接受相关治疗,阻止疾病的进一步发展。方法:本研究的数据来源于新疆医科大学第一附属医院腹部超声科2008年-2020年972名囊型肝包虫病患者,共计3083张肝脏超声图像。1、通过检索中英文数据库自建库至2022年3月前有关计算机辅助诊断肝局灶性病变的研究性论文。通过对文献进行筛选及质量评价、对研究数据进行提取后采用双变量方法和分层总受试者操作特征曲线生成敏感度和特异度的森林图。使用Meta回归的方法探索可能的异质性来源。2、基于Poly-Yolo分割算法去除超声图像中的非成像区域,降低后续模型的计算量。构建Yolov5目标检测模型病灶进行定位与分类,在此基础上,通过集成模型构建囊型肝包虫病的精确分类模型,并通过精确率、召回率等指标评价模型。结果:1、诊断性Meta分析纳入24篇相关文献,深度学习方法相比与传统机器学习模型获得更好的性能,其中敏感度(91%vs 87%),特异度(93%vs 87%)。2、通过Poly-YOLO网络的分割算法能够有效实现对成像区域的精确分割。其中DCS系数(U-Net:0.97 vs OSTU:0.83 vs Markov:0.85),IOU交并比(Poly-Yolo:0.95 vs OSTU:0.79 vs Markov:0.81)。使用Yolov5l模型作为囊型肝包虫病病灶目标检测的模型,平均精度均值(m AP)为88.1%。使用快照集成的算法获取子模型并构建集成模型,Conv Ne Xt-T取得了最好的结果,精确率为86.0%,召回率为85.95%,F1-分数为86.0%。结论:在基于超声图像的肝局灶性病变诊断任务中,深度学习方法好于传统机器学习方法,深度学习方法分析囊型肝包虫病超声图像具有理论可行性。通过polyYolo分割算法能够有效去除超声图像的非成像区域,使得Yolov5l能够有效的分析超声下的肝脏区域。通过基于集成算法的模型能够进一步提高病灶的分类精度。本研究提出的方法有望成为囊型肝包虫病的潜在辅助诊断工具。

RNA甲基化位点预测与癌症组织溯源的机器学习算法研究

这是一篇关于生物信息学,位点预测,集成模型,机器学习,癌症组织溯源的论文, 主要内容为机器学习是人工智能的一个分支,旨在让计算机自主地从数据中学习模式,并根据这些模式做出预测或决策。目前机器学习被广泛应用于各个领域,例如图像识别、自然语言处理、推荐系统和医学诊断等。在生物信息学领域中,机器学习技术可以用于基因组数据分析、蛋白质结构预测和基因组的编辑与设计等方面,有望帮助研究人员发现生物体内的复杂生物学系统的规律性和关联性。并且,由于常规的生物实验方法在实际问题上成本昂贵且耗时费力,因此无法被大规模应用,而基于机器学习的计算方法正好可以弥补生物实验方法存在的这些不足。目前,机器学习算法广泛涌现并应用于生物信息学的各个方向,本文针对其中两个热点问题:RNA甲基化位点预测和癌症组织溯源,利用机器学习算法进行探索研究。作为最丰富的RNA甲基化修饰之一,N6-甲基腺苷(N6-methyladenosine,m6A)可以调节造血干细胞的不对称和对称分裂,影响了人体内各种疾病的发生。因此,精确识别不同物种基因组周围的m6A位点是进一步揭示其生物学功能和对这些疾病影响的关键步骤。此外,针对癌症组织溯源问题,我们也进行了深入研究。原发部位不明的癌症(Cancers of the Unknown Primary,CUP)是一个异质性的癌症群体,其原发组织在经过常规临床方法的详细调查后仍然不明。CUP患者通常采用广谱化疗,这往往会导致不良预后。最近的研究表明,针对CUP原发组织的治疗将显著改善患者的预后。因此,在临床癌症研究中迫切需要开发一种有效的方法来准确检测CUP的原发组织。本文首先从特征提取、特征工程、机器学习算法以及评估方法和度量指标四个方面总结了使用机器学习算法进行分类预测的一般步骤,然后针对RNA甲基化位点预测和癌症组织溯源两个问题分别提出了两种有效的预测方案,主要的研究成果如下:关于m6A位点的预测问题,我们提出了一个集成深度学习模型,称为m6ABERT-Stacking,用于预测三个物种不同组织中的m6A位点。该模型使用RNA的二核糖核苷酸指数(Di NUCindex＿RNA)和k-mer字分割两种方法,分别提取了RNA序列特征,并将他们与原始序列分别输入到带有卷积块注意力模块的残差网络模型(Resnet-CBAM)、带有注意力的双向长短期记忆模型(Bi LSTM-Attention)和基于转换器的双向编码器表示DNA语言的预训练模型(DNABERT)三个子模型中。并按照集成策略组合子模型的输出,最后通过全连接层得到m6A位点的最终预测结果。在相同独立数据集上的实验结果表明,m6A-BERT-Stacking的性能超过了大多数现有方法,可以作为一个有力的工具来预测m6A位点。关于癌症组织溯源问题,首先通过学习相关文献,搜集整理了一个基于微阵列的基因表达数据作为本研究的基准数据集。其次,为了在不损失大量有效特征信息的前提下去除无效或冗余特征,使用决策树模型(Decision Tree,DT)对原始基因特征进行重要性排序,并选择出部分重要基因特征,以训练最终的极端梯度提升(e Xtreme Gradient Boosting,XGBoost)预测模型。实验结果表明,基于基因表达数据的XGBoost模型不仅可以降低临床癌症溯源的成本,而且既高效又准确,这可以为临床医学提供帮助。

基于特征学习和集成算法的用户购买预测研究

这是一篇关于用户品类购买,店铺下单,特征学习,集成模型的论文, 主要内容为随着网上购物平台和在线交易系统的不断完善以及物流行业的迅速发展,越来越多的用户选择在线购买商品。由于购物平台和用户之间不能够面对面进行交流,导致平台不能够充分了解用户的需求,无法很好的掌握用户近期的购买意愿。然而,电商平台积累的海量用户对商品的行为数据使得预测用户未来的购买偏好成为可能。近几年,随着集成学习的快速发展,各种集成模型都广泛用于国内外各大平台举办的用户购买预测比赛中,并取得了优异的表现,基于用户购买预测的商品推荐方法逐渐成为推荐领域的热点问题。然而,目前的用户购买预测都是以商品作为预测目标,随着商品越来越多样,平台商品数量的指数级增长,使得用户商品购买预测问题面临预测不稳定以及预测准确率下降等问题。本文基于2019京东平台举办的推荐算法比赛提供的真实数据集,选择更大粒度的商品品类和店铺作为用户购买预测的目标,研究了在未来7天内,用户对商品品类和店铺的购买意向。主要工作如下:(1)对京东平台提供的电商数据集进行深入的用户购买行为分析,挖掘出影响用户购买的因素。(2)提出了一种基于Word2Vec模型的特征学习方法和一种基于LSTM自编码模型的特征降维方法。这两种方法具有较强的特征提取能力,主要用于学习用户在连续时间内产生的时间序列数据,通过模型的学习自动提取时间序列中的深层次特征。除此之外,本文还从用户和商品品类(店铺)的角度构建了基础特征和交互特征。(3)提出了一种基于Pearson系数和CatBoost模型相结合的特征选择方法。Pearson系数描述了特征之间的线性相关程度,CatBoost模型返回的特征重要性评分表示特征对模型训练的帮助。本文提出的特征选择算法充分衡量了特征间的线性相关性以及CatBoost模型返回的特征重要性评分,得到用于模型训练的最优特征子集。(4)针对用户品类购买预测问题,提出了一个两层集成模型。两层集成模型的第一层由一个双层XGBoost模型、CatBoost模型和逻辑回归模型构成,第二层采用基于线性模型的XGBoost模型对第一层的输出进行集成,得到最终的用户品类购买概率。两层集成模型可以有效地缓解个体模型和同质集成模型分类准确率不高的问题。(5)在确定用户未来购买的品类列表的基础上,本文进一步研究了用户将在哪家店铺进行下单,提出了一个基于集成算法的深度集成模型。本文提出的深度集成模型借鉴了深度神经网络的思想,通过构建多层学习器,对输入特征进行逐层学习得到未来用户在店铺下单的概率。多次实验验证了深度集成模型解决用户店铺下单问题的有效性。

出行平台首页推荐算法研究

这是一篇关于首页推荐,集成模型,马尔可夫模型,高斯混合贝叶斯,决策树的论文, 主要内容为Uber和滴滴等共享出行平台在当今的公共出行中扮演着越来越重要的位置,这不仅源于它们庞大的市场份额和服务量更在于它们提供的服务具有层次性和多样性能适应大众的需求。时至今日滴滴APP内提供的服务类型已有十多项,在用户开启APP时平台会首页推荐并展示其中一项服务的服务页面,最初的首页推荐策略是用户“最近一次使用的服务”,随着平台产品增长和用户使用习惯场景化,该方案已无法适应当前需求。据统计,滴滴平台内有30%的用户发出订单前需要切换四次服务选项卡。为了减少用户操作复杂度和操作时间,迫切需要一种新的算法可以更准确地预测用户需求向用户推荐服务。结合具体的业务场景,在预测时平台可以获取用户当前的时空特征。传统机器学习模型在基于时空特征的预测已取得了一定的成果。在本文中结合滴滴平台用户的服务选择和时空特征的相关性提出一种新的推荐算法。该算法由三个子模型集成产生,子模型分别是使用马尔可夫状态转移矩阵记录用户历史订单中不同服务间的转移概率的时序模型、使用高斯混合分布拟合用户使用产品时间分布再通过贝叶斯公式计算条件概率的时间模型以及采用决策树划分经纬度特征的空间模型。三个子模型通过bagging的方式集成为一个集成模型。预测阶段通过获取用户打开APP的时空特征做出预测,将预测结果作为首页展示的服务页面。该预测算法的实现基于python语言,数学函数库numpy、scipy以及机器学习框架sklearn。实验阶段随机抽取了北京地区20000名用户一个季度内的历史出行数据作为数据集,以这批用户最后一周的订单作为测试集脱敏处理后进行离线对比测试。使用Precision和Marco-F1 scores作为评价指标,对比分析新算法与各基准算法的表现。实验结果显示新算法相较于原始推荐方法在两个指标下都取得了较大提升。