5个研究背景和意义示例,教你写计算机HLS论文

今天分享的是关于HLS的5篇计算机毕业论文范文, 如果你的论文涉及到HLS等主题,本文能够帮助到你

一种基于ZYNQ的图像预处理系统设计与实现

这是一篇关于图像预处理,ZYNQ,HLS,图像算法的论文, 主要内容为在集成电路技术和计算机技术高速发展的今天,数字图像处理技术的应用深入各行各业,无论是工业检测、卫星遥感还是车载摄像头、实时监控,都需要获得高分辨率、高清晰度的高质量图像。本文针对图像传感器只能输出灰度图像、细节不突出、易受环境光影响出现偏色以及常规图像处理方案处理高分辨率图像运算速度慢、实时性差等问题设计了一套基于ZYNQ的图像预处理系统,有效解决了上述问题。主要内容如下:1.针对图像传感器直接输出图像的各种缺点设计了一种包含去马赛克算法、自动白平衡算法、伽马校正算法以及图像锐化算法的图像预处理算法流水线结构。通过多种算法连续协同处理,实现对图像的有效增强;同时,对流水线节点算法进行改进:针对图像传感器输出的灰度图像,提出了一种改进的融合梯度权值去马赛克算法,能够真实还原图像色彩和细节颜色;在对环境光影响造成的偏色现象研究中,本文采用动态阈值自动白平衡算法,以应对各种场景下的色偏问题;对于伽马校正算法,通过多段函数拟合的方式,使伽马校正算法更便于硬件电路实现;此外,本文提出了一种基于局部对比度图像锐化算法,改善图像模糊现象,能够有效优化图像边缘轮廓和细节信息。2.为了提高系统的开发效率,本文通过高层次综合工具VIVADO HLS对高级编程语言描述的图像预处理算法进行硬件语言描述转换,生成能够在FPGA上运行的算法IP核,并针对各个算法进行硬件加速和电路优化。3.本文采用ZU3EG Ultra Scale+MPSo C作为开发平台,通过软硬件协同设计,搭建了图像预处理系统验证平台,对于高清实时图像处理系统设计具有一定的参考意义。

基于CNN的视频目标检测异构加速平台研究

这是一篇关于卷积神经网络,FPGA,HLS,目标检测算法的论文, 主要内容为随着传感器技术的不断发展,更多的高精确度原始数据被人们所获得,如何从复杂多样的数据中获取更加高层次的信息已经成为一项正在研究的热门课题。受益于计算机运算性能的大幅提升,使得以卷积神经网络为代表的机器学习方法性能突飞猛进,其表现性能已经超过同领域的目标检测传统算法,并且实际应用于现实生活,例如语音识别、推荐系统、目标分割等。FPGA(Field Programmable Gate Array)作为一种半定制电路,依赖可编程逻辑阵列可以模拟任何数字电路功能,其低功耗和并行计算的特点与卷积神经网络的运算过程契合。本文结合基于回归的目标检测算法,将卷积神经网络部署于PYNQ开发板进行加速,探索一种在嵌入式设备上的高性能低功耗的神经网络加速方案。本文首先选取了两种适合在边缘设备部署的轻量化神经网络MobileNetV2-SSD 和 YoloV4-Tiny,使用 Pytorch 深度学习框架在 GPU上对网络模型进行了搭建,对训练后的网络模型参数、检测速度、mAP等指标进行比较。其次,采用Xilinx推出的“ZYNQ+FPGA”架构的开发板PYNQ-Z2对YoloV4-Tiny进行部署,PYNQ板卡具有高性能、低功耗、灵活性好的优势。通过对实际卷积神经网络部署过程中的任务进行划分,分析多维卷积层的展开资源和数据复用情况,使用HLS工具完成卷积层和池化层的加速代码编写、Verilog代码生成和IP核封装导出。将导出的CNN加速IP核在Vivado环境中与ZYNQ硬核进行集成并导出xsa平台文件。最后,使用Vitis对卷积神经网络的软件控制流程进行编写,完成基于PYNQ开发板的CNN硬件加速系统平台构建和测试。结果表明,设计的异构加速平台PL端工作时钟在150Mhz下,一张图片处理耗时345ms,在与通用处理器Intel 8700K@3.7Ghz性能相近的条件下,仅有2.553W的最大功耗。同时,在KITTI数据集上目标检测预测结果达到70.17%正确率,性能功耗比值达到了 135,高于CPU的2.6。

基于ZYNQ的屏幕缺陷检测系统研究与实现

这是一篇关于缺陷检测,FPGA,HLS,图像处理的论文, 主要内容为随着电子产品的广泛应用,在电视、电脑、手机等显示领域随处可见液晶屏幕的身影,液晶屏幕的需求在日益增长,大量生产过程中屏幕质量检测需满足准确性和实时性。人工检测的方法是通过人眼进行检测缺陷,其效率低下且准确率较低;传统机器视觉检测的方法是通过在PC机上运行图像处理算法来实现对屏幕的缺陷检测,但其在性能、成本以及稳定性等方面难以满足工业生产的需求。针对人工检测和传统的视觉检测系统存在准确率低、稳定性差、硬件体积大以及成本高的问题,本文提出一种基于Zynq平台即FPGA+ARM架构,利用FPGA技术实现图像处理算法,以此来满足液晶屏幕缺陷检测准确性和实时性的要求。论文主要工作如下:(1)根据目前屏幕缺陷检测系统需求,规划设计了基于FPGA+ARM的异构平台通过软硬协同的设计方式实现缺陷检测系统,系统关键构成包含四个部分:图像采集、图像处理检测、图像缓存以及图像显示。除图像显示的可视化界面借助QT软件设计,其它主要功能均由硬件IP核实现。(2)研究目前缺陷检测系统中采用的图像预处理算法和缺陷检测算法。通过对比分析,在预处理算法中,采用加权平均值法进行灰度化处理;采用中值滤波去噪;使用自适应阈值分割确定最佳分割阈值;采用开运算操作来平滑缺陷部分。论文设计并实现基于像素扫描的多目标检测算法,仿真验证表明该算法可以实现缺陷的检测和定位,准确度较高且易于硬件部署。(3)使用Vivado HLS工具设计实现预处理算法,使用Verilog硬件描述语言设计实现缺陷检测算法,各算法均通过RTL验证。在实现预处理算法时,确定采用像素级的处理粒度,设计了以存储窗口和行缓冲区的存储架构,通过对循环和函数进行流水化以及分割数组的方式来实现算法优化;采用VDMA实现数据的缓存,设计使用三个独立的VDMA,分别与采集模块、处理检测模块和显示模块相连,各VDMA采用多帧缓存的方式并行缓存数据,以此来提高数据吞吐量,进而提高系统的运行速度。论文对系统中各自定义IP模块进行了严谨地仿真和功能验证,根据硬件信息定制自定义系统。经系统测试和分析,在100MHz的时钟频率下帧处理速率为30.6Hz,准确率为89%,总功耗为2.05W。检测系统通过现场测试,验证了其可行性。

基于FPGA的分子动力学模拟加速系统研究

这是一篇关于分子动力学模拟,FPGA,短程力计算系统,HLS,硬件加速的论文, 主要内容为分子动力学模拟是分子系统建模的基本方法之一,其基本思想是赋予分子体系初始状态,利用计算机求解牛顿力学方程,模拟粒子的运动轨迹。分子动力学模拟能够从原子层面模拟出系统的微观演变过程,已成为实验研究的重要参考和补充手段,在药学、生物学、化学、材料学、物理学多个领域有着广泛的应用。目前在不同领域已有许多成熟的分子动力学软件包,然而粒子间作用力计算的算法十分复杂,模拟可揭示生物现象的大分子体系耗时过长、开销巨大。其中短程力的计算对资源的消耗最大,占90%的FLOPs,且花费的时间较长。因此,对生物大分子体系运行长时间尺度的模拟,短程力计算的加速是一项至关重要的优化。现场可编程门阵列(Field Programmable Gate Array,FPGA)以设计灵活、能效高、功耗低等优点,在一众开发平台中脱颖而出,成为分子动力学模拟最具发展前景的加速器。然而FPGA传统的HDL设计有编程难度大、开发周期长等问题,限制了FPGA上分子动力学模拟加速研究的发展。针对上述问题,本文提出了一种基于FPGA的分子动力学模拟短程力计算加速系统的设计方案,使用HLS和HDL协同开发,将HLS的高效性与HDL的精确性结合,提高开发效率的同时保证了加速系统的性能。最终,在FPGA上实现了对短程力计算的硬件加速设计。本文的主要工作和创新点如下:第一,设计了一个基于FPGA的短程力计算系统。根据功能将系统分为五个模块,使用HLS进行实现,包括负责获取存储器中粒子数据的数据读取模块,负责筛选出符合短程力计算条件的粒子对、降低计算量的粒子对生成模块,负责计算粒子对间短程力的短程力计算模块,负责对一组盒子对的力进行局部累加、缓解力存储器读写端口压力的力累加模块和负责将计算完成的力回写到力存储器中的力更新模块。为保证短程力的计算效率,采用流水线技术,整体系统实现流水线化。第二,针对短程力计算系统中寄存器资源消耗较大、系统运行频率低等问题,设计了一种新的粒子调度方式,改变粒子对到粒子配对器的映射方案。在此调度方式下,可以将力累加模块分为两部分,对静态粒子的力基于寄存器进行累加,使用HLS实现设计,对动态粒子的力基于BRAM进行累加,使用HDL实现设计。为提高系统的力计算流水线数量,设计数据预取模块,用于在多流水线情况下读取存储器中的粒子信息,保证力计算的效率。第三,为进一步提高短程力的计算效率,设计了一个基于FPGA的多流水线并行的短程力并行计算系统。针对多流水线对存储空间的访问,设计访存控制模块和力更新模块,解决多流水线同时访问存储器与存储器读写端口有限导致的访存冲突问题。最终实现的短程力并行计算系统与四核中央处理器相比,取得了87.33倍加速效果,与优化前的短程力计算系统相比,取得了30.45倍加速效果。