6篇关于GPU的计算机毕业论文

今天分享的是关于GPU的6篇计算机毕业论文范文, 如果你的论文涉及到GPU等主题,本文能够帮助到你 基于光栅相移的轻离轴数字全息技术研究 这是一篇关于轻离轴数字全息

今天分享的是关于GPU的6篇计算机毕业论文范文, 如果你的论文涉及到GPU等主题,本文能够帮助到你

基于光栅相移的轻离轴数字全息技术研究

这是一篇关于轻离轴数字全息,光栅相移,相位重建,GPU,相位解包裹的论文, 主要内容为轻离轴数字全息技术具有非接触式、高分辨和高效率等优点。该技术可以通过两幅干涉图相减来去除直流分量,增大了横向分辨率,从而提高了重建像质量,因此被广泛应用于显微测量、三维重建、无损检测等领域。目前轻离轴数字全息技术主要存在以下两方面问题。一方面,大部分轻离轴数字全息光学成像系统在设计方面使用了复杂的光学元件,使得系统在安装和调节方面不够灵活;另一方面,相位重建过程中解包裹部分较为耗时,在处理大数据量时无法实现快速测量。因此,近年来越来越多的研究人员将以上问题作为重点研究内容,其具有重要的学术价值和实际意义。本文针对以上问题主要研究内容如下:首先,针对光学成像系统设计较为复杂,安装与调节不够灵活等问题,提出一种基于光栅相移的轻离轴数字全息成像系统。该成像系统通过移动透射式光栅可以自由调节两个干涉图之间的相移,从而提升相移值设定的灵活性。由于该设计无需使用复杂的光学元件,所以具有安装简单、调节灵活以及低成本等优点。在此基础上,本文推导出基于随机相移的轻离轴数字全息相位重建算法,而后通过对多种不同被测样本进行相位重建实验,并对结果进行分析,验证本文所提方法的有效性和准确性。其次,针对轻离轴数字全息相位重建过程中计算量大,运算时间长等问题。对轻离轴数字全息相位重建过程进行并行化设计,并利用CUDA编程模型,在GPU平台上对相位重建过程进行加速。在对离散余弦最小二乘解包裹算法进行并行化实现的过程中,应用共享内存技术提升线程读取数据的效率,缩短算法执行时间,进一步提高相位重建的速度。通过比较相位重建过程在GPU和CPU平台上的运行时间,验证该并行化设计能够有效提升相位重建过程的速度。最后,基于Windows 10和Visual Studio 2019软件开发平台设计实现轻离轴数字全息光学图像处理系统。该系统包括图像读入与显示、干涉图像数据处理、图像数据输出与保存等功能模块,实现了轻离轴数字全息相位重建结果的可视化。

面向高性能计算的批量矩阵乘法计算框架设计与实现

这是一篇关于GPU,BLAS,批量矩阵乘法,高性能计算的论文, 主要内容为基本线性代数子程序(BLAS)是一系列基本线性代数运算函数的接口标准,早已被广泛应用在科学计算和工业界的各个领域中,并对现代科学领域和工业发展起到了至关重要的作用。其应用场景针对大型输入(大型矩阵、向量操作)往往有较好的性能表现;然而在问题规模较小,而问题数量较大的场景下会由于资源利用不充分导致性能表现较差。因此近年来提出了批量BLAS(Batch BLAS)的概念和初步实现,以应对这种新兴趋势带来的挑战。它通过将多个子问题同时并行批量处理,解决以往经典BLAS中对于这种场景表现较差的窘境。对于批量矩阵相乘而言,目前基于GPU的BLAS库(Cu BLAS、Roc BLAS)只支持固定尺寸的问题输入,而不支持可变尺寸矩阵计算,极大的限制了其应用场景。本文旨在设计并实现一个面向高性能计算的GPU批量可变尺寸矩阵乘法计算框架,从而解决在高性能场景下已有的计算库性能表现不佳的问题。研究内容包括批量可变尺寸矩阵乘法场景分析研究与MAGMA vbatched例程优化、细粒度批量可变尺寸矩阵乘法内核函数设计与实现、批量可变尺寸矩阵乘法计算框架设计与实现和HPCC DGEMM的应用与优化这四个方面。在批量可变尺寸矩阵乘法场景分析研究与MAGMA vbatched例程优化中,本文研究分析了批量可变尺寸矩阵乘法的具体应用场景的输入情况,同时分析研究了目前业界在GPU中最优的MAGMA实现中的优势与存在的问题,并针对这些问题进行优化。在细粒度批量可变尺寸矩阵乘法内核函数的设计与实现中,本文针对应用场景对问题输入进行了细粒度的设计与划分,并结合GPU硬件架构从内存层级入手来实现高效并行的GPU内核函数。在批量可变尺寸矩阵乘法计算框架的设计与实现中,本文提出细粒度内核函数优化层级、批次序优化层级、极端数据输入调整层级来提高计算框架的计算表现。在HPCC DGEMM的应用与优化部分中,本文对该测试进行基于任务的划分和细粒度切割划分来优化,以提高目前高性能计算集群中多GPU节点的系统表现。本文针对目前批量矩阵乘法进行了改进和优化,提高并扩展了BLAS库对于批量操作的支持度和适用性,以望解决目前在高性能计算、机器学习、科学计算等领域出现的新挑战。

异构框架下的高性能金融计算算法及平台实现

这是一篇关于高性能金融计算,期权定价模型,BSDE,异构计算,GPU的论文, 主要内容为高性能计算集群的“基础设施”作为国家科学研究的保障已经上升为国家战略。高性能计算被广泛使用,特别是在金融工程领域,并且是不可或缺的工具。目前用于提供高质量图形,视觉和远程金融研究用户的高性能金融计算平台已成为高性能计算研究的突破口。在金融市场,尤其是金融交易中,信息的任何时间和延迟都可能带来巨大的经济损失。因此,期权定价问题需要算法的高实时性能。反向随机微分方程(BSDE)近年来在金融计算中得到了广泛的研究,并应用于期权定价算法的问题。与Black-Scholes公式相比,当概率模型不确定时,BSDE计算更准确。BSDE-Theta数值格式主要通过组合PDE高阶数字格式和BSDE后向随机微分方程自身特征得到。Theta格式离散BSDE用于时间范围,条件数值方差由MonteCarlo计算。插值计算方法用于获得操作中随机无网格点的值。通过这种求解方法,结果非常准确。为此,本文提出了一种基于金融市场期权定价的高性能计算平台系统。该系统基于Python语言开发,采用B/S架构为用户提供服务,实现了BSDE高精度数值计算方法和平台的集成。设计用户友好的用户界面,提供方便的访问方法,并结合CPU和GPU异构计算框架方法,为平台用户提供跨节点计算需求,确保选项定价应用程序中更准确,更高效的计算资源。

基于GPU图采样的大图模型训练系统的设计与实现

这是一篇关于图学习,图采样,大规模图处理,GPU的论文, 主要内容为图深度学习方法作为分析图数据的有力工具被广泛应用于解决各种现实世界问题,并取得了巨大成功。随着图数据规模的快速增长,如何高效训练大规模图模型成为学术界和工业界关注的热门研究问题。现有的大规模图模型训练系统往往存在着图采样效率低、硬件配置需求高昂、可扩展性低等问题。对此,本论文围绕单机多卡环境下的大图模型训练,对基于GPU的大图采样、大规模异构图在多GPU上的计算子图生成、基于子图训练的大规模图模型训练等环节进行深入研究,设计并实现了基于GPU图采样的大图模型训练系统。具体而言,完成如下工作:1)为了解决GPU图采样中存储需求大、传输开销高的挑战,本论文提出了分块图压缩算法CGC。CGC利用新提出的线性估计压缩算法与混合编码方式,在压缩率与解压缩性能之间取得平衡。实验和理论分析证明CGC可以有效减少图文件大小并降低传输开销,同时支持以常数级别复杂度快速访问压缩后的邻居列表。2)实现了基于CGC算法的压缩图快速采样系统GraSS。它采用顶点并行模式,在单GPU上实现了多种对压缩图的图采样方法,加速图学习的端到端性能。在多张真实世界图和合成图上的实验结果表明,当目前最先进GPU采样系统不能有效完成采样任务时,GraSS仍可以高效支持大规模图上的各种图采样方法。3)当扩展到单机多GPU系统时,面对更大的图规模与更复杂的图结构,本论文设计并实现了多GPU计算子图生成技术。它采用分块策略提高生成的并行性能,能够高效完成图划分、图采样两阶段计算子图生成任务。通过真实世界中亿级顶点、十亿级边的大规模异构图验证了技术方案的有效性,为基于GPU图采样的大图模型训练系统提供训练数据支撑。4)设计并实现了基于GPU图采样的大图模型训练系统。该系统基于子图训练策略,可以在单机多卡环境下完成对大规模异构图的训练。系统通过随机子图组合策略缓解了子图训练带来的精度下降问题。而在大规模图数据上的实验表明,系统在减少一半GPU计算资源的情况下仍然能够有效完成图模型的训练任务。

基于GPU和内容标签的个性化推荐系统研究

这是一篇关于个性化推荐系统,社会化内容标签,CUDA,GPU的论文, 主要内容为互联网的快速发展给人们的生活和工作带来了巨大的便利,但是Web上的海量信息也产生了“信息泛滥”的问题。如何构建行之有效的个性化推荐系统,快速高效地分析出用户的个性化行为模型,为用户推荐出他们真正喜欢的信息内容,是目前各大商业化网站的重要研究内容之一。但是,研究人员在开发基于用户个性化需求的Web推荐系统的过程中遇到了以下两个主要问题:第一,需要提高个性化推荐算法的准确性,保证推荐的结果确实是用户当前需要的信息;其次,需要优化推荐系统的执行效率,加快算法执行速度,为用户提供接近于实时的个性化推荐服务。 本文对传统的基于内容的推荐算法和基于条目的协同过滤算法进行分析,在社会化内容标签的基础上,设计出了一种新的混合型的推荐方法,同时在CUDA(Compute UnifiedDevice Architecture,统一计算设备架构)体系下利用GPU(Graphic Processing Unit,图形处理器)对算法进行了多方面的优化。 本文用这种混合型的推荐算法在MovieLens提供的数据集上进行了用户的个性化推荐,实验结果表明,与其他几种实现的推荐算法相比较,本文的算法在整体预测评分的平均绝对误差上拥有更小的误差值,在给用户提供的个性化推荐结果方面,这种混合型的推荐算法对推荐结果的预测更为准确合理,同时,随着用户规模和资源条目规模的扩大,此方法在大规模用户和资源条目的实验环境下可以获得更好的加速比。所以,这种混合型的推荐算法可以为大规模的商业化系统提供一种快速有效的个性化推荐解决方案。

推荐系统中基于模型的协同过滤算法研究

这是一篇关于FunkSVD,GPU,Spark,优化算法,并行计算的论文, 主要内容为如今,网络数据信息量的日益增多以及大数据技术的发展,给推荐系统带来了发展机遇与挑战,基于模型的协同过滤算法成为推荐系统中主流算法之一。基于模型的协同过滤算法主要通过机器学习和数据挖掘的思想来建模解决,其中,矩阵分解FunkSVD算法原理简单,效果好,将基于模型的协同过滤算法推到一个新高度。然而,面对大数据计算时,数据稀疏和迭代振荡往往会影响FunkSVD算法的准确率。并且,在数据量以GB以上为单位的情况下,FunkSVD算法的运行速度较慢,有效性不高。因此,提高FunkSVD算法的准确率和有效性尤为重要。提高FunkSVD算法的准确率主要从缓解数据稀疏和迭代振荡两方面解决。提高FunkSVD算法的有效性主要通过算法的并行化处理。本文针对这两部分内容,弥补以往研究方法的不足,分别提出改进的FunkSVD算法以及基于Spark和基于GPU的改进的FunkSVD并行算法。具体研究内容如下:1.为了提高FunkSVD算法的准确率,提出一种改进的FunkSVD算法。利用深度学习优化算法RMSProp对传统FunkSVD进行改进。考虑到RMSProp算法是梯度下降法的一种改进,并且适合处理稀疏数据,将RMSProp与FunkSVD算法结合,在降低数据稀疏对准确率的影响的同时,解决迭代振荡问题,为算法提供全局最优值,从而最大限度地提高预测准确率。2.为了解决改进的FunkSVD算法处理大数据时计算速度缓慢的问题,分别提出基于Spark和基于GPU的并行算法。Spark和GPU两种大数据计算框架可以对改进的FunkSVD更新参数和计算内积的过程进行并行化,减少算法的计算时间,提高算法的运行效率,从而提高算法处理大数据时的有效性。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://m.bishedaima.com/lunwen/47450.html

相关推荐

发表回复

登录后才能评论