基于ZYNQ平台的高效传输系统设计与实现
这是一篇关于异构平台,ZYNQ,高层次综合,卸载引擎技术,RFCF的论文, 主要内容为随着大数据、云计算等新兴技术的蓬勃发展,各种应用任务层出不穷。为满足不同应用任务多样化处理的需求,异构平台成为研究热点。ZYNQ异构平台将ARM和FPGA集成在一块芯片上,它既保留了CPU的软件可编程特性,又扩展了FPGA的硬件可编程特性,因此应用十分广泛。然而,对于由不同处理器组成的异构平台来讲,如果不同应用任务的调度、管理及其数据处理均由CPU来实现,会对异构平台系统的高效传输造成一定的影响。因此,本文对异构平台高效传输进行研究,以ZYNQ平台中多应用任务之间的复杂性、差异化处理的需求为背景,提出了不同的解决方法,利用不同处理器的优势,达到异构平台高效传输的目的,提高系统的整体性能。本文从以下几个方面展开研究:(1)基于HLS的TOE设计针对通信协议处理中CPU处理负担大、占用率低以及传统的寄存器传输级RTL设计灵活性和高效性差的问题,采用了HLS高层次综合技术实现TOE设计,提高算法设计的灵活性和高效性,减小CPU处理负担。实验结果表明,与CPU执行效率相比,采用HLS技术实现的TOE系统获得更高的吞吐量,性能提高了8.9%,资源占用平均优化了10.3%的面积。(2)多应用任务流量管理算法针对异构平台FPGA多应用任务数据突发传输导致丢包的问题,在对几种经典的流量管理算法分析的基础上,提出并实现了一种适用于FPGA的流量管理RFCF算法,通过采用控制字符将剩余资源反馈至发送端,发送端根据资源余量采用不同的数据优先级传输策略,保证多应用任务下突发数据能够及时得到处理。实验结果表明,本文提出的RFCF算法丢包率比基于速率的流量管理算法丢包率降低了14.9%,资源占用优化了14%的面积。(3)基于ZYNQ的视频目标检测系统设计及实现将典型应用任务进行具体化,构建基于ZYNQ的视频目标检测系统,并将TOE设计和RFCF算法实际应用到目标检测系统中,然后对系统进行调试分析。通过硬件环境和软件环境测试分析,结果表明,TOE和RFCF算法模块能够有效提高系统传输性能,能够满足该系统设计的功能需求。
基于ZYNQ平台的高效传输系统设计与实现
这是一篇关于异构平台,ZYNQ,高层次综合,卸载引擎技术,RFCF的论文, 主要内容为随着大数据、云计算等新兴技术的蓬勃发展,各种应用任务层出不穷。为满足不同应用任务多样化处理的需求,异构平台成为研究热点。ZYNQ异构平台将ARM和FPGA集成在一块芯片上,它既保留了CPU的软件可编程特性,又扩展了FPGA的硬件可编程特性,因此应用十分广泛。然而,对于由不同处理器组成的异构平台来讲,如果不同应用任务的调度、管理及其数据处理均由CPU来实现,会对异构平台系统的高效传输造成一定的影响。因此,本文对异构平台高效传输进行研究,以ZYNQ平台中多应用任务之间的复杂性、差异化处理的需求为背景,提出了不同的解决方法,利用不同处理器的优势,达到异构平台高效传输的目的,提高系统的整体性能。本文从以下几个方面展开研究:(1)基于HLS的TOE设计针对通信协议处理中CPU处理负担大、占用率低以及传统的寄存器传输级RTL设计灵活性和高效性差的问题,采用了HLS高层次综合技术实现TOE设计,提高算法设计的灵活性和高效性,减小CPU处理负担。实验结果表明,与CPU执行效率相比,采用HLS技术实现的TOE系统获得更高的吞吐量,性能提高了8.9%,资源占用平均优化了10.3%的面积。(2)多应用任务流量管理算法针对异构平台FPGA多应用任务数据突发传输导致丢包的问题,在对几种经典的流量管理算法分析的基础上,提出并实现了一种适用于FPGA的流量管理RFCF算法,通过采用控制字符将剩余资源反馈至发送端,发送端根据资源余量采用不同的数据优先级传输策略,保证多应用任务下突发数据能够及时得到处理。实验结果表明,本文提出的RFCF算法丢包率比基于速率的流量管理算法丢包率降低了14.9%,资源占用优化了14%的面积。(3)基于ZYNQ的视频目标检测系统设计及实现将典型应用任务进行具体化,构建基于ZYNQ的视频目标检测系统,并将TOE设计和RFCF算法实际应用到目标检测系统中,然后对系统进行调试分析。通过硬件环境和软件环境测试分析,结果表明,TOE和RFCF算法模块能够有效提高系统传输性能,能够满足该系统设计的功能需求。
基于FPGA的循环神经网络前向传播加速技术研究
这是一篇关于循环神经网络,回声状态网络,硬件加速器,FPGA,高层次综合的论文, 主要内容为循环神经网络是一类专门针对序列数据处理任务而设计的神经网络,广泛应用于语音识别,机器翻译和动态系统建模等领域,在时间序列相关的任务上拥有超越其他神经网络模型的性能表现。随着任务复杂度的增长与人们对模型预测效果需求的提高,循环神经网络的模型参数量也越来越大,这对硬件实现平台造成了巨大的存储和计算压力,也带来了高延迟等问题,阻碍了循环神经网络在更广阔场景的应用,例如嵌入式场景和Io T场景等。现有的工作分别从模型压缩算法和硬件加速技术着手,提出了一些经典的解决方案如剪枝算法和硬件加速器,但是这些方案存在压缩成本过高,加速器专用性过强等缺陷,无法应用在对精度和速度有动态调节需求的场景中,而这类场景又是普遍存在的。因此,开发具备精度速度动态调节能力的循环神经网络加速技术存在很大的实用价值。针对上述问题,本文研究了循环神经网络前向传播过程的加速技术,基于FPGA设计并实现了具备精度和速度调节能力的循环神经网络加速系统。该系统借助基于投影的压缩算法的低成本优势,并将其和网络的前向传播过程有机结合,实现了在系统运行过程中生成并切换到指定网络尺寸的功能,最终达成了调节系统精度速度的目的。首先,本文进行了系统架构分析与设计,将系统的各功能组件映射到具体的软硬件实现,合理的功能划分使得系统能够高效的运转。其次,在软件算法设计上,本文考虑了系统在实际运行过程中可能存在的突发情况,提出了基于预置投影矩阵的方法和基于状态采样的方法,这两种模型生成方法分别对应着普通应用场景和异常状态场景。充分的应用场景考虑使得系统拥有了环境的鲁棒性。然后,在硬件实现方面,本文设计了加速循环神经网络前向传播过程的硬件加速器,该加速器能够运行两种不同结构的网络模型并且能调节网络的尺寸,动态可调功能的硬件基础是基于分块矩阵向量乘法的计算模块。最后,本文对系统消耗的资源进行优化,主要是使用分段三次函数近似方法优化了激活函数模块的资源消耗。系统运行效果的实验表明本文设计实现的循环神经网络加速系统具备精度和速度的动态调节能力,加速器性能测试实验表明本文的加速器资源消耗较为合理。
基于高层次综合的YOLOv3-tiny硬件加速设计与研究
这是一篇关于YOLOv3-tiny,高层次综合,目标检测,状态机架构,Winograd卷积的论文, 主要内容为随着信息社会的发展,目标检测被广泛适用于自动驾驶、监控安防、人脸识别等领域,主流实现目标检测的方法都是将算法部署在云端,边缘节点主要将信息采集并发送到云端,这种方法导致云从设备间的信息传递产生了一定延迟,而且易造成信息的泄露,而采用边缘计算实现目标检测可以有效规避这些不足。本文为满足嵌入式小型化的应用场景,并实现边缘设备的目标检测,采用YOLOv3-tiny算法,提出一种针对嵌入式设备的软硬件协同处理方案,加速目标检测算法。本文基于ARM与FPGA硬件平台的特点,对YOLOv3-tiny算法进行了软硬件任务划分。(1)在软件算法方面:采用动态量化的方法,在可以接受的精度损失范围内,将算法中的浮点数转化为了16位定点数,尽管精度下降了2.4%左右,但减少了FPGA资源的开销。采用卷积层和批归一化层融合的优化方法,减少了网络前向推理的计算量。(2)在硬件加速方面:本文设计了状态机式的硬件加速器架构,加速器主要包含卷积层,池化层和激活层,以及输入输出buffer和权重偏置buffer。针对特征图数据和权重偏置等数据,采用两条AXI4总线作为数据通路传递层间数据,扩大加速器访问DDR的带宽,并采用AXI4-lite总线作为控制通道在ARM与FPGA之间传递地址和状态信号。为了实现FPGA中固定尺寸的硬件加速单元,采用数据分块的方式实现同一网络层的多次分块运算,尽管增加了检测时间,但实现了网络在有限资源内的部署,减少了FPGA资源的消耗。本文充分利用HLS开发周期短的特性,对比了常规卷积、卷积并行化和卷积流水并行化后的周期延迟和资源使用情况,并采用Winograd卷积对3*3尺寸卷积核进行优化,减少了3*3卷积加速单元中乘法的运算次数,节约了10%左右的DSP开销。采用输出特征图复用的方式,减少了片外缓存与片内buffer的传递次数。针对池化单元同样采用流水并行化的方式设计。针对激活函数层,采用分段线性拟合的方法,将两类激活函数合并为一类,减少了资源的开销。针对加速器的缓存设计,采用多级数据存储方案进行设计,首先使用AXI4的outstanding和burst突发特性进行总线缓存;采用pingpong缓存的方法实现总线传递到片内的缓存,提升了一倍的吞吐率;最后在运算单元中,采用寄存器资源对运算单元的数据进行缓存。基于AX7350开发板,本文建立了从SD卡到DRAM的地址映射,实现了ARM与FPGA之间的通信,验证了本文设计的加速器性能。该加速器在时钟频率100Mhz,功耗只有3.3w的条件下,实现了单张图片前向推理时间为0.42秒,2.38FPS的检测速度,软硬件协同处理时间为0.86秒,相较于ARM Cortex A9处理器性能提升了接近106倍,相较于Intel Core i5 M569@2.67GHZ CPU性能提升了接近5倍。相较于其他状态机架构的加速器,本文的FPGA资源使用率略高,但吞吐率可以达到13.26GOPS,优于其他状态机加速器,实现了资源与性能的平衡。
基于FPGA的循环神经网络前向传播加速技术研究
这是一篇关于循环神经网络,回声状态网络,硬件加速器,FPGA,高层次综合的论文, 主要内容为循环神经网络是一类专门针对序列数据处理任务而设计的神经网络,广泛应用于语音识别,机器翻译和动态系统建模等领域,在时间序列相关的任务上拥有超越其他神经网络模型的性能表现。随着任务复杂度的增长与人们对模型预测效果需求的提高,循环神经网络的模型参数量也越来越大,这对硬件实现平台造成了巨大的存储和计算压力,也带来了高延迟等问题,阻碍了循环神经网络在更广阔场景的应用,例如嵌入式场景和Io T场景等。现有的工作分别从模型压缩算法和硬件加速技术着手,提出了一些经典的解决方案如剪枝算法和硬件加速器,但是这些方案存在压缩成本过高,加速器专用性过强等缺陷,无法应用在对精度和速度有动态调节需求的场景中,而这类场景又是普遍存在的。因此,开发具备精度速度动态调节能力的循环神经网络加速技术存在很大的实用价值。针对上述问题,本文研究了循环神经网络前向传播过程的加速技术,基于FPGA设计并实现了具备精度和速度调节能力的循环神经网络加速系统。该系统借助基于投影的压缩算法的低成本优势,并将其和网络的前向传播过程有机结合,实现了在系统运行过程中生成并切换到指定网络尺寸的功能,最终达成了调节系统精度速度的目的。首先,本文进行了系统架构分析与设计,将系统的各功能组件映射到具体的软硬件实现,合理的功能划分使得系统能够高效的运转。其次,在软件算法设计上,本文考虑了系统在实际运行过程中可能存在的突发情况,提出了基于预置投影矩阵的方法和基于状态采样的方法,这两种模型生成方法分别对应着普通应用场景和异常状态场景。充分的应用场景考虑使得系统拥有了环境的鲁棒性。然后,在硬件实现方面,本文设计了加速循环神经网络前向传播过程的硬件加速器,该加速器能够运行两种不同结构的网络模型并且能调节网络的尺寸,动态可调功能的硬件基础是基于分块矩阵向量乘法的计算模块。最后,本文对系统消耗的资源进行优化,主要是使用分段三次函数近似方法优化了激活函数模块的资源消耗。系统运行效果的实验表明本文设计实现的循环神经网络加速系统具备精度和速度的动态调节能力,加速器性能测试实验表明本文的加速器资源消耗较为合理。
基于深度学习的道路车辆检测系统设计
这是一篇关于车辆检测,FPGA,Vitis,深度学习,高层次综合的论文, 主要内容为随着社会经济的迅速发展,居民汽车拥有率大幅提升,交通出行更加便利的同时,交通拥挤、交通事故频发、城市交通压力增大等问题逐渐凸显,已成为世界各国面临的共同难题。而对于交通管理部门来说,准确掌握交通实时车流量以及实现对道路车辆的实时定位将有利于及时进行交通疏导,降低交通事故的发生概率。道路车辆检测技术又是车流量统计等任务获得车辆数量、位置等信息的基础。因此车辆检测技术的研究具有重要的现实意义和实际应用价值。车辆检测应用的是目标检测技术,本文分别介绍了传统目标检测算法和基于深度学习的目标检测算法。从目前的发展趋势来看,基于深度学习的目标检测算法的发展快于传统算法。在硬件上,相比于CPU(Central Processing Unit)、GPU(Graphic Processing Unit)和ASIC(Application Specific Integrated Circuit),FPGA更加适合用于深度学习网络的终端部署,例如Xilinx和Intel两家公司对其FPGA产品的深度学习应用都有着完备的软硬件开发工具支持。因此,为了满足道路车辆检测场景对实时性、准确性以及便捷性的要求,论文采用基于深度学习的单级目标检测框架SSD作为网络模型,选定Xilinx Zynq Ultra Scale+MPSo C ZCU102开发板作为硬件部署平台,以基于Vitis统一开发平台的半定制方式来构建基于FPGA的新型道路车辆检测系统。技术路线上,本文采用基于Vitis统一开发平台的半定制开发方式。卷积神经网络核心模块由深度优化定制的Xilinx官方DPU IP核实现,对于仍有一定计算量的算法预处理和矩阵后处理以及解码操作部分,考虑到使用FPGA IP核能很好地消除速度瓶颈,故采用DPU IP核加FPGA IP核的组合方式设计系统硬件平台。具体而言,DPU IP核和FPGA加速IP核通过Xilinx Vitis平台通过V++指令编译生成系统整体硬件平台,之后由V++指令将系统整体硬件平台、Xilinx官方嵌入式基础平台以及通用ext4格式的文件系统链接编译生成操作系统镜像。在硬件调用上,本文基于Xilinx Vitis AI技术生成DPU网络推断函数库和基于Open CL技术设计高层次综合硬件调度函数库,将二者以动态链接库的方式兼容于基于Python设计的多线程主机应用程序中。模型训练及测试采用的“公共道路车辆交通记录数据集”来自于Mendeley Data官网。论文作者利用数据集标注工具Label Img标注数据集得到VOC格式的标签,再将数据集图片和相应标签转换成TFrecord格式送入算法网络训练。训练得到的网络模型用于生成DPU动态链接库和可执行文件,并利用SSH方式远程连接主机和开发板,实现系统整体调试。测试结果表明,该系统在ZCU102开发板上可以准确地进行车辆检测识别,采用SD卡读入图片的测试方式系统处理单张图片大约用时55.33ms,DPU各网络层的平均算力性能值约为92.8GOP/S,个别层算力能达到约819.9GOP/S的峰值;而通过分辨率为640×480的摄像头采集图像的测试方式下,系统实时处理速度约为每秒17帧,功耗为30.8W。以上测试结果表明本文设计的新型道路车辆检测系统达到了对公路场景车辆实时检测的要求。论文的主要工作内容及特点在于:1、以半定制开发的方式构建了一种基于FPGA的深度学习框架,为深度学习的电路部署给出了参考;2、实现了一种基于深度学习的道路车辆检测方案,满足了实时检测的要求;3、标注了一个道路车辆数据集,为此领域其他相关工作提供了支撑。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计客栈 ,原文地址:https://m.bishedaima.com/lunwen/55053.html