9篇关于LightGBM的计算机毕业论文

今天分享的是关于LightGBM的9篇计算机毕业论文范文, 如果你的论文涉及到LightGBM等主题,本文能够帮助到你 基于机器学习的用户购买行为预测研究 这是一篇关于用户购买行为预测

今天分享的是关于LightGBM的9篇计算机毕业论文范文, 如果你的论文涉及到LightGBM等主题,本文能够帮助到你

基于机器学习的用户购买行为预测研究

这是一篇关于用户购买行为预测,LightGBM,XGBoost,模型融合的论文, 主要内容为近年来,随着互联网技术的不断发展,网上购物变得越来越方便。琳琅满目的商品不断地推向用户,从众多商品中挑选出符合自己心意的商品变得越来越繁琐。同时,各电商平台之间竞争日益激烈,如何挖掘用户潜在购买意向,准确地为用户推送符合自身喜好的商品,最大程度提升用户的购买转化率,这对于平台运营者而言,变得越来越具有现实的指导意义。本文采用京东大数据平台提供的来自京东平台下已脱敏的真实数据,对用户的购买行为进行挖掘,预测用户在未来5日内会购买何种商品。对用户购买行为进行预测主要分为以下四个步骤:第一步是对异常数据进行处理。对原始数据进行缺失值填充、去除噪声数据和爬虫干扰数据,并对用户购买行为进行初步统计得出基本的用户购买行为分布情况。第二步是特征选取。通过对业务进行分析,对重要特征进行提取,构造合理的用户购买行为预测数据集。第三步是模型训练与评估。选取Light GBM、Cat Boost和XGBoost模型,结合训练数据集,对用户购买行为进行建模与分析,通过参数调优与模型评估,确定出XGBoost模型为预测效果最好的单预测模型。第四步是模型融合策略下预测模型的建模与评估。通过加权投票法和Stacking融合策略构造出四种组合预测模型,并同单一预测模型进行对比。通过模型评估与分析,发现组合模型的预测效果要优于单预测模型,同时,也确定了应用加权投票策略的组合模型为最终用户购买行为预测模型。

基于机器学习的二手车价格预测

这是一篇关于二手汽车,LASSO回归,XGBoost,LightGBM,评估模型的论文, 主要内容为21世纪以来,我国经济社会进入了快速发展阶段,人们的物质生活水平有了显著提高且对于精神生活的需求日益增加,从而使得近年来二手汽车行业也呈现了较高的发展速度。但是随着二手车市场规模发展越来越大,一系列价格评估体系问题也相继浮现,其中主要以估价的主观性问题为主,这些问题的产生对二手车价格的合理评估形成了较大影响,更对二手车市场的长久发展造成了严重制约。因此,寻找更加规范、合理的二手车价格预测系统具有一定的现实意义。本文采用某电商交易平台产生的二手车数据,应用机器学习方法开展二手车价格预测的统计分析研究。考虑将数据的原始变量及其衍生变量纳入到二手车价格预测模型中,应用LASSO回归模型、XGBoost算法和LightGBM算法建立三种二手车价格预测模型。采用平均绝对误差作为评价指标对三个模型的预测效果进行系统对比分析,我们发现:LightGBM算法的效果最佳,平均绝对误差最小,运行时间最快,且从学习速率曲线看,该模型在训练集和交叉验证集的准确率都收敛,预测能力和泛化能力都比较好;XGBoost算法的表现略弱于LightGBM模型,平均绝对误差比LightGBM大0.008;表现最差的是LASSO回归模型。研究结果表明:影响二手车价格的前三个重要性因素按先后顺序依次为匿名变量、衍生变量二手车使用天数、汽车的功率,而与常识相符合的因素比如燃油类型、车身类型等却位于重要性排名的末尾,验证了构造衍生特征变量的合理性。本文建立的价格评估模型可为消费者评估二手车价格提供一种适用性更广的方法,如针对不同的汽车品牌、发动机功率以及使用天数,根据二手车的交易记录数据即可进行价格评估。本文基于某电商平台提供的二手车交易数据建立的价格预测方法也适用于线下的二手汽车交易情况。

基于机器学习的二手车价格预测

这是一篇关于二手汽车,LASSO回归,XGBoost,LightGBM,评估模型的论文, 主要内容为21世纪以来,我国经济社会进入了快速发展阶段,人们的物质生活水平有了显著提高且对于精神生活的需求日益增加,从而使得近年来二手汽车行业也呈现了较高的发展速度。但是随着二手车市场规模发展越来越大,一系列价格评估体系问题也相继浮现,其中主要以估价的主观性问题为主,这些问题的产生对二手车价格的合理评估形成了较大影响,更对二手车市场的长久发展造成了严重制约。因此,寻找更加规范、合理的二手车价格预测系统具有一定的现实意义。本文采用某电商交易平台产生的二手车数据,应用机器学习方法开展二手车价格预测的统计分析研究。考虑将数据的原始变量及其衍生变量纳入到二手车价格预测模型中,应用LASSO回归模型、XGBoost算法和LightGBM算法建立三种二手车价格预测模型。采用平均绝对误差作为评价指标对三个模型的预测效果进行系统对比分析,我们发现:LightGBM算法的效果最佳,平均绝对误差最小,运行时间最快,且从学习速率曲线看,该模型在训练集和交叉验证集的准确率都收敛,预测能力和泛化能力都比较好;XGBoost算法的表现略弱于LightGBM模型,平均绝对误差比LightGBM大0.008;表现最差的是LASSO回归模型。研究结果表明:影响二手车价格的前三个重要性因素按先后顺序依次为匿名变量、衍生变量二手车使用天数、汽车的功率,而与常识相符合的因素比如燃油类型、车身类型等却位于重要性排名的末尾,验证了构造衍生特征变量的合理性。本文建立的价格评估模型可为消费者评估二手车价格提供一种适用性更广的方法,如针对不同的汽车品牌、发动机功率以及使用天数,根据二手车的交易记录数据即可进行价格评估。本文基于某电商平台提供的二手车交易数据建立的价格预测方法也适用于线下的二手汽车交易情况。

应用改进协同过滤算法的驻村工作单位推荐方法研究

这是一篇关于推荐算法,协同过滤,稀疏数据,XGBoost,LightGBM,驻村工作的论文, 主要内容为随着互联网的高速发展,人们已经身处大数据时代,大数据时代不仅带来了多元的信息丰富了人们的生活,也带来了信息过载的困扰。推荐系统经过发展更新,已经是解决此类问题的重要技术。推荐系统可以服务于人们的生产生活,也可以将推荐系统融入国家战略发展,用科技手段促进发展改善民生。在统筹城乡规划为困难村庄选派驻村工作单位时,往往根据经验开展工作,没有形成科学性、规范化的流程,随着驻村工作的全面展开,经验已经无法满足选派质量和效率的需要,应用推荐算法的相关知识可以解决此类问题。推荐算法在生产生活中的使用非常流行,协同过滤推荐算法以物以类聚人以群分的经典思想,完成了许多个性化推荐的任务,在很多方面有出色表现,但其中仍存在数据稀疏性、忽略用户属性、准确性问题以及冷启动问题等等。针对上述情况,本文提出了一种融合梯度提升决策树的改进协同过滤算法,通过改进协同过滤算法形成了为困难村庄选派驻村工作单位的一套科学方法。本文具体地做了如下工作:首先,本文对协同过滤算法设计改进,第一步解决普遍可见的数据稀疏和不重视用户属性的问题。本文使用稀疏数据集的处理方法,引入困难村庄自身属性特征,并且根据问题需要构造额外特征,作为后续建模的基础。第二步针对困难村庄与驻村工作单位的实际情况,以往选派的驻村工作单位并不都是最优解,构造配适度指标量化困难村庄与驻村工作单位的匹配程度,为配适度设置阈值筛选有效样本,从有效样本中学习科学的经验规律。第三步设计基于相似度和Light GBM算法的评分预测模型。本文通过相似度寻找近邻村庄集合,提取近邻村庄有关特征,与目标村庄的属性特征进行特征重组,将重组后的特征带入Light GBM算法中输出预测评分。然后,将融合梯度提升决策树的改进协同过滤算法应用到为困难村庄选派驻村工作单位的问题上,设置了总体实验和对比实验。总体实验结果表明本文提出的改进协同过滤算法解决为困难村庄选派驻村工作单位的问题是有效可行的。经过对比实验,验证得到改进算法的各个步骤是必不可少的,并且改进算法明显提高了准确性,预测结果RMSE的值可以降到0.57,MAE的值可以降到0.41。

Spark平台下基于LightGBM的网络贷款风险预测研究

这是一篇关于网络贷款,风险预测,过采样方法,麻雀搜索算法,LightGBM的论文, 主要内容为网络贷款不仅能满足居民和企业的多样化贷款需求,还能促进社会经济的发展和金融的普惠性。然而,网络贷款存在的大量违约风险问题给贷款平台和借贷人带来了巨大的损失和困扰。随着用户贷款信息的海量增加,如何有效且快速地预测用户违约风险和评估用户信用等级,是当前网络贷款领域面临的一个重要而紧迫的问题。为了解决上述问题,本学位论文利用大数据技术和机器学习技术,构建Spark平台下基于Light GBM的网络贷款风险预测系统,为网络贷款平台提供一个高效、准确、稳定的用户风险评估和信用评分工具。论文的主要贡献和创新点如下:(1)针对网贷数据的标签不平衡特点,提出了一种改进的过采样算法。将样本密度的概念引入到Borderline SMOTE算法,改进了合成新样本的方法,利用K近邻算法筛选合成的少数类样本,进一步优化数据集。在Spark平台下设计了网贷数据的过采样方法,并使用基于混合溢出树的近似K近邻算法实现了过采样算法的并行化。(2)利用麻雀搜索算法优化LightGBM模型超参数,设计了适应度函数和离散策略。在Spark平台下,分析了Light GBM模型的三种并行方式,设计了集群上模型参数搜索的流程,并根据模型的违约预测结果建立了信用评分转换方法。(3)构建了网络贷款风险预测原型系统,该系统采用浏览器、服务器、分布式系统和分布式存储的四层结构,兼顾可维护性、安全性和稳定性,完成信息管理、风险预测、数据管理、模型管理、集群管理五大功能,并使用Flask服务器框架进行了实现。本学位论文通过多个实验验证了提出方法的有效性和创新性。实验结果表明,改进的过采样算法多数情况下在AUC值和KS统计量上具有优势;麻雀搜索算法优化的Light GBM模型在Lending Club数据集上预测性能高于随机森林等机器学习模型,AUC值达到0.935,KS统计量达到0.740;Spark平台能一定程度上加速算法,减少运行时间;信用评分转换方法符合网贷信用评分的要求,能够区分不同信用等级的用户。

渔船作业行为分类与可视化

这是一篇关于时空数据,渔船作业分类,LightGBM,可视化的论文, 主要内容为渔船作业在海上作业中占有重要地位,对渔船作业行为进行有效的分类识别,有利于今后海上交通调度与渔业安全生产。但是由于信息收集或上传过程中存在数据缺失等问题,同时具备时空数据的特性,造成了渔船作业行为识别不准确,可能会导致海上人身安全与财产损失,同时增加了海上交通危险发生的几率。本文是以分析大量的渔船北斗设备记录的时空数据作为研究数据,通过分析每条渔船的历史轨迹信息,对其作业行为进行分类,辅助渔业管理部门识别出渔船作业类型,通过可视化渔船作业,分析、预测和研判渔船作业行为,指导安全生产。本文的主要研究内容如下:(1)构建特征工程。由于采集到的原始数据特征较少,同时数据在收集或上传的过程中容易出现缺失数据、误差数据与数据冗余等问题,因此对原始数据变量进行分析后构建特征工程。主要分为两个部分:第一部分是基于经纬度、速度和方向的特征工程,其中主要采用统计方法获得新特征;第二部分基于轨迹信息的特征工程,利用Geo Hash编码,采用自然语言处理的方式Word2Vec、TFIDF和Count Vectorizer构建新特征。(2)渔船作业行为分类模型训练。构建特征工程与原始数据融合得到的305维特征作为模型输入,利用5折机器学习方法Light GBM对渔船作业行为进行分类,判断渔船的作业行为。模型的构建充分利用了输入的特征信息,设置了该模型的参数,将精确率、召回率、F1-Score、准确率、宏平均和加权平均作为模型效果的评价指标,绘制出了该模型的特征重要性条形图,得到了对实验结果贡献最多的前10个特征。实现了能够在海上准确地识别出渔船的作业行为类型。与文献中已经使用的XGBoost、SVM、GBDT与Random Forest算法相比较,最终得到使用的Light GBM构建的模型的分类效果最好。(3)渔船作业可视化。基于Vue.js和Spring Boot框架,利用JPA实现与My SQL数据库的数据交互。使用ECharts工具引入可用图表,调用百度地图API实现百度地图的引入。一共实现了4个模块:群体作业模块包含渔船作业行为类型与出海情况两部分;海域分布模块包括围网作业、拖网作业和刺网作业三个部分,便于分析3种作业在近海的分布情况;船舶定位监控模块包括渔船定位监控和渔船轨迹两个部分;在渔船作业分类模块中应用训练的模型实现了分类计算。

基于深度学习的农产品价格预警系统设计与实现

这是一篇关于价格预测,农产品,混合神经网络,LightGBM,预警系统的论文, 主要内容为中国是一个农业大国,农产品的价格不仅体现了国家的经济发展水平,同时也在一定程度上影响着国民幸福指数。我国幅员辽阔,各个地区信息化发展水平不同,农业信息相对闭塞,这使得农业从业人员无法及时获取农产品信息,容易出现盲目种植行为,这往往会导致供需冲突,影响市场稳定、造成损失。因此,对农产品批发市场信息进行合理管理与及时发布,并且建立相对合理的价格预测和预警机制,可以帮助农业从业者及时获取农产品信息,合理安排农业种植计划,同时也可以给市场监管人员提供一套完善的监管及预警系统。近年来,大数据、人工智能、物联网以及5G等新兴技术的快速发展,也为农业信息化提供了有力的技术支持。针对上文所提出的问题,本文开发了一个集市场信息管理、信息展示以及价格预测预警于一体的系统。本文的主要研究内容如下:(1)农产品价格预警系统的设计。本文预警系统采用模块化设计的方式,在逻辑层面进行业务解耦合,根据用户的定位不同,将系统分为数据展示与信息管理两个系统。数据展示子系统分为价格数据查询、预测预警展示和市场信息展示三个部分;信息管理系统分为市场数据管理、人员信息管理和预警信息管理三个部分。(2)价格预测算法设计。针对农产品特征之间存在的非线性关系和传统价格预测算法多日准确度较低两个问题,本文提出了一种基于特征选择的混合神经网络价格预测模型。在算法的设计中,本文从特征选择与预测模型网络结构两个方面出发进行算法设计。在特征选择方面,考虑到特征之间存在的非线性关系和特征之间的冗余影响,选择LightGBM对同市场不同品类、相邻市场同品类的价格数据、环境以及市场经济等因素进行特征选择。在网络结构方面,考虑到预测输出为未来多日的价格,因此选用Seq2Seq的结构,将网络分为Encode与Decode两个部分:Encode部分考虑到多维特征和时间序列本身的时序性特点,选择1DCNN和Lstm的混合神经网络进行特征捕获;Decode部分利用Lstm的多输出特性,实现多日预测的需求。此外,为了验证本文所提出的预测模型在农产品数据集上的效果,使用了如LSTM、GRU、SVM等常用且预测效果较好的模型进行对比实验,对比不同模型预测值的均方根误差RMSE,实验表明,本文所提出的预测模型在与其他模型的对比实验中准确度更高,并具有较好的泛化能力。(3)农产品价格预警系统的实现。本文首先通过Spring Boot和Vue等相关技术构建了农产品价格预警系统;然后利用高德地图API和Echarts库分别对市场地理位置信息和农产品价格相关数据进行可视化展示;最后将本文提出的农产品价格预测算法应用到价格预警的模块中,对预测价格进行分析,通过价格波动的情况进行对应的预警,使用电话和邮件进行预警处理。本文对现有价格预测算法进行改进,解决了特性选择的非线性问题、多天预测准确率问题,提高算法精度的同时保证了运行效率;并且立足于工业开发,基于本文提出算法,搭建了农产品价格预警系统,并对其进行了系统测试,确保系统功能完善并且性能稳定。

面向医疗领域的中文命名实体识别方法研究

这是一篇关于命名实体识别,BERT,Lattice LSTM,多路召回,LightGBM的论文, 主要内容为随着互联网技术的迅速发展,越来越多的在线医疗问诊网站得到患者的信任和依赖,患者通过在线问诊的方式将自身症状跟医生诉说,寻求专业的解答。利用信息抽取和知识图谱技术,可以将在线医疗咨询文本中的关键实体、实体的属性和实体间的关系进行提取和存储,为在线医疗智能问答系统提供基础,进一步改善患者的线上就医体验。其中,命名实体识别技术是信息抽取中的基础和关键技术。因此,研究如何提升在线医疗咨询文本的命名实体识别效果,具有非常重要的现实意义。当前对医疗领域中文命名实体识别方法的研究仍处于起步阶段,本文经过调研分析,发现存在如下可以改善的问题:(1)缺乏高质量的命名实体识别公开数据集。(2)识别效果存在一定的提升空间。(3)对BERT等语言模型的研究和应用还不够深入。(4)鲜有融合多种命名实体识别技术的方法。针对上述问题,本文主要进行了如下的工作:(1)针对没有公开的医疗领域命名实体识别数据集的现状,本文利用爬虫得到的在线问诊网站中的医疗咨询文本,构建了高质量的标注数据集。(2)分析BERT模型在医疗领域命名实体识别任务中的效果以及BERT基于特征和基于参数微调两种方式的效果,为下文的研究打下基础。(3)创新性地提出BERT_Lattice LSTM模型并将其应用于中文命名实体识别任务中。BERT_Lattice LSTM模型利用BERT语言模型作为特征提取模块,并利用Lattice LSTM模型作为命名实体识别主体模块,最后经过CRF层对输出结果进行调整。实验结果表明,该模型可以充分结合BERT语言模型对于字符级别潜在语义信息的获取优势,以及Lattice LSTM模型对于词语级别信息的获取优势,大大提升中文命名实体识别任务的效果。(4)针对医疗领域命名实体识别任务的专业性和领域性,本文借鉴了推荐系统中多路召回的思路,创新性地设计了多条命名实体召回通路,并利用Light GBM模型进行融合。该方法在本文构建的在线医疗咨询文本数据集上能达到较高的识别精度,相对于该数据集上表现最优的单模型BERT_Lattice LSTM,识别精度有了显著的提升。综上所述,本文提出的方法能进一步提升医疗领域中文命名实体识别任务的效果,最终为面向医疗领域的中文命名实体识别技术提供深刻的指导意义。

基于LightGBM的O2O优惠券使用预测系统的设计与实现

这是一篇关于O2O优惠券,梯度提升决策树,Spark,LightGBM,预测模型的论文, 主要内容为O2O模式是一种将线下交易与互联网结合的电子商务模式。在O2O模式里,网上商城通过提供信息服务的方式向线上用户提供线下商店的各类信息,用户在获取商店相关信息之后可以在线上下单和支付,然后通过订单信息到线下商店提取商品或者享受服务。而作为一种吸引消费者的手段,优惠券一直是线下商店的重要营销手段之一。但是对多数消费者来说,随机投放的优惠券会造成无意义甚至令人厌烦的干扰。而另一方面,对于线下商店而言,大量随机投放优惠券的行为除了有可能降低自身品牌的信誉之外,还会导致营销成本难以控制。与传统梯度提升决策树算法和XGBoost相比,LightGBM算法不仅有更快的训练效率、更低内存的使用以及更高的准确率,还支持并行化学习和大规模数据处理。目前在相关领域内针对LightGBM算法应用研究较少。本文利用阿里天池大赛平台提供的消费者线下交易信息与线上点击信息,建立了基于LightGBM算法的O2O优惠券使用预测模型,通过实验验证了模型的有效性。在该模型的基础上,基于大数据计算框架Spark设计实现了一个O2O优惠券使用预测系统。本文所做工作如下:一、以建立O2O优惠券使用模型预测的方式实现优惠券的个性化投放。除了赋予商家更强的营销能力之外,优惠券的个性化投放还能让有一定消费偏好的消费者得到真正的实惠。二、目前国内外学者对LightGBM算法的研究文献不多,本文使用LightGBM算法对O2O优惠券使用预测建模,拓展了LightGBM算法的应用领域。三、基于O2O优惠券使用预测模型开发了O2O优惠券使用预测系统。利用面向对象方法对该系统进行分析和设计,实现了该系统的主要功能。商家可使用该系统实现优惠券的个性化投放,可降低商家的营销成本,提升经营效益。与其他模型相比,基于LightGBM的O2O优惠券使用预测模型有较高的准确率和较快的训练速度。O2O优惠券使用预测系统主要包括数据计算模块、模型预测模块和Web服务端模块。数据计算模块由Spark实现,主要职责是计算用户相关特征、商户相关特征、优惠券等相关特征。模型预测模块使用Python语言实现,主要职责是根据Spark计算的特征,调用训练好的机器学习模型,得到预测结果。Web服务端模块基于SSM框架实现,主要职责是提供对外服务以及网页显示的接口,包括查看预测结果、查看消费记录、使用优惠券等接口。通过该系统可以预测消费者使用优惠券消费的概率,进而实现优惠券的个性化投放,赋予商家更强的营销能力。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/47795.html

相关推荐

发表回复

登录后才能评论