基于卷积神经网络的目标检测加速方案研究
这是一篇关于卷积神经网络,加速器,目标检测,编译器的论文, 主要内容为在卷积神经网络中,深度学习技术凭借其强大的特征提取能力、较强的分类能力,近年来在自然语言处理、语音识别、计算机视觉等领域都有广泛应用。但这种优异性能依赖于大量的参数量和计算量,随着卷积神经网络应用领域的不断扩大,与之对应的是需要有更好的硬件平台,其中就包括更高的计算能力和更好的数据带宽。目前行业内的佼佼者都在致力于挖掘各种基于芯片的解决方案。而CPU和GPU更高的功耗以及需要根据场景进行布置,此方法已经很难满足日常需求。因此通过专用硬件对卷积神经网络进行加速逐渐成为深度神经网络的重要发展趋势。为了卷积神经网络经济效率最大化目标,就必须实现硬件加速器通用化。有鉴于此,本课题基于神经网络加速器,对目前主流神经网络目标检测模型进行加速,在保证通用性的前提下,完成了加速的目标。本文的研究工作主要如下:通过对神经网络加速器体系架构以及内部各运算单元计算特性进行研究,完成加速器各功能寄存器的配置,在控制通路设计了一种FIFO状态信号配合多级流水的控制结构,解决访存模块相邻单元数据吞吐率不一致、跨时钟域传输、控制路径时序错误问题。对加速器各模块核心算法进行研究,设计加速器卷积模块与池化模块联合运行的工作模式,减少加速器对系统内存的频繁访问,提高数据带宽。通过对加速器内部数据通信方式的研究,完善内部总线协议并设计协议转换模块,为加速器与片上系统的集成提供条件,实现对加速器硬件系统的封装。通过对神经网络加速器软件开发环境的研究,分析编译器对神经网络的调用方式,提出模型量化方法,完成对目前主流神经网络模型的量化,设计数据格式转换程序,将量化后的模型转换为编译器所支持的数据结构,成功对网络模型进行压缩并完成编译。通过对运行时程序的研究,设计用户驱动程序,搭建虚拟测试平台,联合系统内核驱动,在虚拟测试平台实现卷积神经网络的正常运行。基于FPGA搭建神经网络加速器硬件平台,将加速器内部RAM代码转化为行为级描述,完成对加速器板上LUT资源的优化,使用APB与AXI总线协议对加速器进行FPGA映射。通过Petalinux植入嵌入式操作系统,优化加速器系统设备树,完成加速器硬件系统与软件环境的搭建。本文基于ZCU102开发板,完成神经网络加速器硬件优化以及软件设计,以手写数字识别网络对搭建的加速器硬件系统进行测试,系统工作频率为100 MHz,平均一张手写数字识别时间为2 ms。最后对目标检测网络进行实现,在仅消耗25%的板卡资源下,完成对目标进行识别,其速度可达16帧。
基于嵌入式的三维目标检测算法研究
这是一篇关于卷积神经网络,FPGA,加速器的论文, 主要内容为随着嵌入式系统的普及和应用领域的不断扩大,嵌入式目标检测技术也得到了广泛的研究和应用。在过去,嵌入式目标检测技术主要依赖于传统的机器视觉方法,其检测效果和性能受到限制。近年来,由于深度学习的飞速发展,许多新型的目标检测算法已被普遍采纳,从而极大地改善了嵌入式目标检测的准确度与可靠性。其中,卷积神经网络(Convolutional Neural Network,CNN)作为深度学习算法的典范,已被证明具有极高的准确度,并且已被证明可以完成许多复杂的计算机视觉任务。然而,传统的卷积神经网络通常包含密集的计算量和庞大的数据量,因此不适合在计算资源有限、功耗低的嵌入式计算场景中应用。FPGA(Field Programmable Gate Array,FPGA)具有高度的可编程性和并行计算能力,使得基于FPGA的嵌入式目标检测技术在速度和性能上具有一定的优势。因此本文对基于FPGA的卷积神经网络目标检测算法进行研究,主要内容包含对三维点云神经网络改进和训练,通过Verilog语言设计硬件电路实现神经网络。借助Point Net三维目标检测技术,通过采用可分离的深度卷积方法来改善该网络模型,从而显著减少其所需的计算量。同时考虑到FPGA在处理浮点数上的劣势,将模型参数进行浮点数转定点数的量化处理,对网络模型进一步改进。采用Tensor Flow深度学习框架,使用Model Net40数据库中的三维点云样本对改进后的网络模型进行训练,在训练中增加的非线性激活函数加速收敛,最终达到在检测精度基本不变的前提下,获得了准确率较高的权重和偏置。结合FPGA内部资源,通过Verilog语言对模型内部的运算控制、数据传输、存储进行设计,实现网络的前向传播硬件结构,并在Xilinx ZYNQ平台上测试和评估。经过实验测试,ZYNQ-7020平台的平均运算计算性能达到了14.64 GOP/s,并且硬件总体功耗为3.34W,其能效比相较CPU(Central Processing Unit)和GPU(Graphics Processing Unit)的性能高出了20.8倍和10.1倍左右。满足了嵌入式平台对目标检测神经网络低功耗、高能效的设计要求。
基于FPGA的快速卷积硬件加速研究与设计
这是一篇关于卷积神经网络,快速卷积算法,加速器,FPGA的论文, 主要内容为随着神经网络和深度学习等信息技术不断的创新突破,人工智能应用与服务的兴起驱动着智能时代的蓬勃发展。将人工智能应用与服务推向网络边缘,充分释放边缘数据的潜力,实现边缘设备智能化逐渐成为各行业的研究发展方向。边缘智能的实现对设备提出了高算力、高带宽、低延迟和低功耗等需求,以便能够应对各类复杂应用场景,提供高性能的实时计算和更好的服务质量。然而,由于卷积计算较高的计算复杂度和庞大的计算量,在神经网络模型中占据大部分的计算时间。因此,通过对卷积算法实现优化设计,减低计算复杂度,可有效提升计算效率。此外,FPGA具备可重构性、低延迟与低功耗的特点使其在硬件部署方面都展现出巨大的优势,具备着巨大的应用潜力以及市场前景。本文基于FPGA的快速卷积硬件加速器设计的主要内容由以下两个方面组成:(1)快速卷积硬件加速器的设计。本文通过对各类卷积算法的研究与分析,总结各自算法特点,并采用Winograd卷积算法实现快速卷积硬件加速器。在加速器的计算模块中利用循环展开减少迭代次数,增加系统并行度。同时,采取流水线设计,提升系统计算效率与吞吐量。在加速器访存优化方面,针对输出访存采取数据复用方式减少冗余访问,并在加速器架构中设计了双缓冲结构,实现乒乓操作,重叠数据传输时间与计算时间,进一步提升系统吞吐率。(2)快速卷积硬件加速器系统性能分析与优化。对目标神经网络模型数据实现定点量化,提升网络模型在硬件平台的计算性能。根据Winograd卷积算法特点,对加速器带宽进行优化设计,对数据存储地址进行重排,减少数据读取时的冗余开销,提升加速器带宽性能。针对快速卷积硬件加速器构建设计空间模型并进行探索,分析特定硬件平台下加速器适配的并行配置。最后,制定加速器实验测试方案,基于Xilinx ZCU102硬件开发平台实现快速卷积硬件加速器。实验结果表明,在200 MHz的工作频率下,加速器计算性能为847.7 GOP/s,与先前工作对比,计算性能与资源利用效率都得到了提升。
基于嵌入式的三维目标检测算法研究
这是一篇关于卷积神经网络,FPGA,加速器的论文, 主要内容为随着嵌入式系统的普及和应用领域的不断扩大,嵌入式目标检测技术也得到了广泛的研究和应用。在过去,嵌入式目标检测技术主要依赖于传统的机器视觉方法,其检测效果和性能受到限制。近年来,由于深度学习的飞速发展,许多新型的目标检测算法已被普遍采纳,从而极大地改善了嵌入式目标检测的准确度与可靠性。其中,卷积神经网络(Convolutional Neural Network,CNN)作为深度学习算法的典范,已被证明具有极高的准确度,并且已被证明可以完成许多复杂的计算机视觉任务。然而,传统的卷积神经网络通常包含密集的计算量和庞大的数据量,因此不适合在计算资源有限、功耗低的嵌入式计算场景中应用。FPGA(Field Programmable Gate Array,FPGA)具有高度的可编程性和并行计算能力,使得基于FPGA的嵌入式目标检测技术在速度和性能上具有一定的优势。因此本文对基于FPGA的卷积神经网络目标检测算法进行研究,主要内容包含对三维点云神经网络改进和训练,通过Verilog语言设计硬件电路实现神经网络。借助Point Net三维目标检测技术,通过采用可分离的深度卷积方法来改善该网络模型,从而显著减少其所需的计算量。同时考虑到FPGA在处理浮点数上的劣势,将模型参数进行浮点数转定点数的量化处理,对网络模型进一步改进。采用Tensor Flow深度学习框架,使用Model Net40数据库中的三维点云样本对改进后的网络模型进行训练,在训练中增加的非线性激活函数加速收敛,最终达到在检测精度基本不变的前提下,获得了准确率较高的权重和偏置。结合FPGA内部资源,通过Verilog语言对模型内部的运算控制、数据传输、存储进行设计,实现网络的前向传播硬件结构,并在Xilinx ZYNQ平台上测试和评估。经过实验测试,ZYNQ-7020平台的平均运算计算性能达到了14.64 GOP/s,并且硬件总体功耗为3.34W,其能效比相较CPU(Central Processing Unit)和GPU(Graphics Processing Unit)的性能高出了20.8倍和10.1倍左右。满足了嵌入式平台对目标检测神经网络低功耗、高能效的设计要求。
基于深度学习的遥感图像分类算法的快速硬件实现
这是一篇关于遥感图像分类,深度神经网络,FPGA,TVM编译器,加速器的论文, 主要内容为作为对地观测技术的重要组成部分,遥感图像分类已被广泛应用于国防和民生经济等领域。传统的图像分类算法难以准确描述高分辨遥感图像丰富的空间细节和语义信息,分类精度不高,难以满足下游任务中信息分析和情报提取的需求。近年来,以卷积神经网络为代表的深度学习技术,凭借其优秀的表征学习能力,为遥感图像分类任务带来了性能上的巨大提升;但在资源受限的终端,卷积神经网络的庞大参数和计算量为模型高效实时部署带来了巨大挑战。针对上述问题,本文从算法软硬件协同与灵活部署实现的角度出发,提出一种基于秩映射的轻量化遥感图像分类算法,设计实现了面向遥感图像精准分类的端到端的轻量化神经网络加速器。本文的主要成果如下:一、针对深度神经网络存在大量参数和计算量的问题,本文提出了一种基于秩映射的轻量化方法,有效降低了网络复杂性。由于残差块可以高效学习特征并抑制网络“退化”,本文以残差网络(Res Net)作为骨干网络,完成基于秩映射的网络轻量化算法。通过特征图的平均秩映射,本算法衡量了权重滤波器的重要性,剪去了低秩特征映射对应的滤波器来轻量化网络,在网络分类精度损失可控的情况下实现更高压缩比的网络轻量化。实验结果表明,Res Net网络在UCM和NWPU遥感数据集上拥有高精度的分类性能;剪枝后的网络拥有不弱于原始网络的性能表现,参数量下降86.8%的情况下仅损失0.98%的平均分类精度。二、针对底层硬件加速电路灵活性较差和设计开发困难等问题,本文设计实现一种高度参数化的底层加速电路框架,以针对不同资源的FPGA设备完成灵活部署和迁移。本文使用高层次综合(High Level Synthesis,HLS)完成高速并行和流水化的指令获取、计算单元、数据加载和存储模块的电路设计。通过设置内部模块的位宽和深度来便捷调整底层硬件的资源占用,实现高度参数化和模块化的加速器,优化内部迭代流水和指令集调度。此外,本文以通用矩阵乘法(GEMM)单元为核心完成高密度矩阵乘法加速,向编译器堆栈开放通用张量计算接口,完成了一种基于FPGA的高吞吐量的流水化深度学习加速硬件实现电路。三、针对缺乏将网络框架映射到底层硬件原语的编译器的问题,本文借助TVM编译器,完成端到端神经网络编译。本文基于TVM堆栈编译器完成了模型导入和计算图自动编译优化,调用参数化的底层加速电路,完成自动调优和8bit量化的轻量化部署,充分调用FPGA和ARM CPU资源,软硬件协同完成算法加速,最终在PYNQ-Z2 FPGA平台实现一个端到端、从网络框架编译到底层硬件原语的智能调度遥感图像高精度分类实时处理系统。实验表明,在网络性能损失可控的情况下,基于FPGA的神经网络加速器相比ARM CPU最高可实现11倍的时间加速。
基于CNN的航空目标检测算法优化与嵌入式实现
这是一篇关于目标检测,轻量化,嵌入式实现,加速器的论文, 主要内容为得益于卷积神经网络研究逐渐成熟,基于卷积神经网络的目标检测算法不断进步,航空目标检测算法作为目标检测算法的分支,因应用广泛而受到研究人员重视。但随着目标检测算法检测精度的提高,算法庞大的参数量和计算量使其在嵌入式设备上难以实现,应用于航空目标检测的无人机设备因自身能源限制,又对搭载其上的设备具有便携性和低功耗的要求。因此本文从算法可移植性和嵌入式设备加速实现两个方面出发,对基于卷积神经网络的目标检测算法进行轻量化且适合嵌入式设备实现的改进和优化,针对卷积神经网络在嵌入式设备上的加速实现,设计基于ZYNQ的卷积神经网络加速器,通过并行度和流水线优化实现目标检测算法在嵌入式设备上加速计算,主要完成工作如下:(1)首先针对目标检测算法网络模型参数多、计算量大的问题,选择以轻量型的YOLOv4-Tiny算法为基础,进一步对算法网络模型的参数量和计算量进行轻量化改进;其次针对网络模型参数量和计算量降低后导致检测精度下降的问题,参考PAN结构对网络模型结构中的特征增强部分进行改进,生成新的网络模型;最后,为使算法参数适合嵌入式设备计算,对改进后的网络模型进行量化训练,得到量化后的网络模型并进行实验。实验结果表明在检测精度损失有限的情况下,网络模型尺寸压缩89%,检测速度提高64%。(2)针对目标检测算法在嵌入式设备上的加速实现,本文设计基于ZYNQ的卷积神经网络加速器,根据ZYNQ平台设计卷积神经网络加速器架构,利用软硬件协同设计方式,使用Vivado系列工具分别对加速器软件和硬件所设计的各功能模块进行实现。最后,对加速器计算过程从并行度和流水线两个方面进行优化。(3)对加速器硬件功能模块进行仿真验证,使用上述卷积神经网络加速器设计方案实现本文改进后的目标检测算法,在ZCU104开发板上集成系统并实现算法推理过程。从检测效果、开发板的资源使用情况以及系统功耗多个方面对结果进行分析。结果表明,本文提出的算法优化方式在嵌入式设备实现所需功耗3.8W,能效比39.7GOPS/W,通过对比表明该方法具有一定优势。
32位浮点多任务伺服控制加速器设计
这是一篇关于加速器,伺服控制,指令集,浮点指令,IP设计的论文, 主要内容为在当今这个剧烈变化着的时代,伴随着诸如可穿戴电子产品、无人机、商用服务机器人、电动车内的各系统的车载控制器等智能设备越来越成熟、产品性能需求越来复杂,对充当伺服控制器的芯片的功能要求也越来越多变。因此采用旧有硬件结构的伺服控制器逐渐难以平衡实际应用中工程需求的各个方面。与此同时具备相当灵活性的So C设计也逐渐应用于伺服控制领域,伺服控制集成电路IP化已经是必然的趋势。目前,国内主打面向控制类需求的So C的发展同国外相比并不繁荣,为了填补相应的空白,本文设计开发了一款数据总线为32bit,支持单精度浮点运算的多任务伺服控制加速器IP,后文中简称伺服控制加速器或加速器。本文所实现的伺服控制加速器的具有8级流水线结构与31条指令,指令涵盖了双周期浮点乘法、单周期浮点加减法、单周期浮点比较运算、定点加减法、单周期定点浮点相互转换指令、逻辑位运算,以及直接和间接寻址转移、跳转等指令,充分覆盖了伺服控制和实时性要求较高场合的需求。其中,定周期浮点运算指令能够增强加速器处理控制算法有关运算时的性能,满足控制实时性的需求。同时,针对多数控制算法程序的执行往往遵循严格的采样控制周期,而某些控制系统的任务又具有突发性和不可预测性的特点,加速器专门设计了独特的程序任务处理机制。当出现特定外部中断或总线命令时,执行对应的程序任务,相关任务不被触发时,流水线处于静默状态,流水线内寄存器基本不出现翻转。加速器采用哈佛结构,通过AHB总线协议与外部程序和数据存储器以及其他对象进行交互,易于高效融入有关系统设计中。在完成了伺服控制加速器的设计之后,本文又搭建了仿真验证平台对RTL设计进行仿真验证。首先根据设计的功能点和结构特点,使用SV语言编写参考模型,搭建验证平台,对验证加速器执行单一任务的正确性,即程序指令执行的正确性进行仿真验证。然后在该平台的基础上进行改造,使用改造后的平台对加速器执行任务以外的功能点进行仿真验证。在设计通过仿真验证尽可能排除漏洞之后,对设计进行逻辑综合与物理实现。综合在Synopsys公司的DC平台上进行,物理实现在Synopsys公司的ICC平台上进行,采用中芯国际0.13um工艺库。最终课题所设计的伺服控制加速器IP面积为17163.02μm2,在200MHz的频率下时序收敛,且在200MHz的最高时钟频率下功耗为15.5433m W,作为面向控制器类应用的IP核,其性能已基本达到实际应用的水平。
基于卷积神经网络的目标检测加速方案研究
这是一篇关于卷积神经网络,加速器,目标检测,编译器的论文, 主要内容为在卷积神经网络中,深度学习技术凭借其强大的特征提取能力、较强的分类能力,近年来在自然语言处理、语音识别、计算机视觉等领域都有广泛应用。但这种优异性能依赖于大量的参数量和计算量,随着卷积神经网络应用领域的不断扩大,与之对应的是需要有更好的硬件平台,其中就包括更高的计算能力和更好的数据带宽。目前行业内的佼佼者都在致力于挖掘各种基于芯片的解决方案。而CPU和GPU更高的功耗以及需要根据场景进行布置,此方法已经很难满足日常需求。因此通过专用硬件对卷积神经网络进行加速逐渐成为深度神经网络的重要发展趋势。为了卷积神经网络经济效率最大化目标,就必须实现硬件加速器通用化。有鉴于此,本课题基于神经网络加速器,对目前主流神经网络目标检测模型进行加速,在保证通用性的前提下,完成了加速的目标。本文的研究工作主要如下:通过对神经网络加速器体系架构以及内部各运算单元计算特性进行研究,完成加速器各功能寄存器的配置,在控制通路设计了一种FIFO状态信号配合多级流水的控制结构,解决访存模块相邻单元数据吞吐率不一致、跨时钟域传输、控制路径时序错误问题。对加速器各模块核心算法进行研究,设计加速器卷积模块与池化模块联合运行的工作模式,减少加速器对系统内存的频繁访问,提高数据带宽。通过对加速器内部数据通信方式的研究,完善内部总线协议并设计协议转换模块,为加速器与片上系统的集成提供条件,实现对加速器硬件系统的封装。通过对神经网络加速器软件开发环境的研究,分析编译器对神经网络的调用方式,提出模型量化方法,完成对目前主流神经网络模型的量化,设计数据格式转换程序,将量化后的模型转换为编译器所支持的数据结构,成功对网络模型进行压缩并完成编译。通过对运行时程序的研究,设计用户驱动程序,搭建虚拟测试平台,联合系统内核驱动,在虚拟测试平台实现卷积神经网络的正常运行。基于FPGA搭建神经网络加速器硬件平台,将加速器内部RAM代码转化为行为级描述,完成对加速器板上LUT资源的优化,使用APB与AXI总线协议对加速器进行FPGA映射。通过Petalinux植入嵌入式操作系统,优化加速器系统设备树,完成加速器硬件系统与软件环境的搭建。本文基于ZCU102开发板,完成神经网络加速器硬件优化以及软件设计,以手写数字识别网络对搭建的加速器硬件系统进行测试,系统工作频率为100 MHz,平均一张手写数字识别时间为2 ms。最后对目标检测网络进行实现,在仅消耗25%的板卡资源下,完成对目标进行识别,其速度可达16帧。
基于CNN的航空目标检测算法优化与嵌入式实现
这是一篇关于目标检测,轻量化,嵌入式实现,加速器的论文, 主要内容为得益于卷积神经网络研究逐渐成熟,基于卷积神经网络的目标检测算法不断进步,航空目标检测算法作为目标检测算法的分支,因应用广泛而受到研究人员重视。但随着目标检测算法检测精度的提高,算法庞大的参数量和计算量使其在嵌入式设备上难以实现,应用于航空目标检测的无人机设备因自身能源限制,又对搭载其上的设备具有便携性和低功耗的要求。因此本文从算法可移植性和嵌入式设备加速实现两个方面出发,对基于卷积神经网络的目标检测算法进行轻量化且适合嵌入式设备实现的改进和优化,针对卷积神经网络在嵌入式设备上的加速实现,设计基于ZYNQ的卷积神经网络加速器,通过并行度和流水线优化实现目标检测算法在嵌入式设备上加速计算,主要完成工作如下:(1)首先针对目标检测算法网络模型参数多、计算量大的问题,选择以轻量型的YOLOv4-Tiny算法为基础,进一步对算法网络模型的参数量和计算量进行轻量化改进;其次针对网络模型参数量和计算量降低后导致检测精度下降的问题,参考PAN结构对网络模型结构中的特征增强部分进行改进,生成新的网络模型;最后,为使算法参数适合嵌入式设备计算,对改进后的网络模型进行量化训练,得到量化后的网络模型并进行实验。实验结果表明在检测精度损失有限的情况下,网络模型尺寸压缩89%,检测速度提高64%。(2)针对目标检测算法在嵌入式设备上的加速实现,本文设计基于ZYNQ的卷积神经网络加速器,根据ZYNQ平台设计卷积神经网络加速器架构,利用软硬件协同设计方式,使用Vivado系列工具分别对加速器软件和硬件所设计的各功能模块进行实现。最后,对加速器计算过程从并行度和流水线两个方面进行优化。(3)对加速器硬件功能模块进行仿真验证,使用上述卷积神经网络加速器设计方案实现本文改进后的目标检测算法,在ZCU104开发板上集成系统并实现算法推理过程。从检测效果、开发板的资源使用情况以及系统功耗多个方面对结果进行分析。结果表明,本文提出的算法优化方式在嵌入式设备实现所需功耗3.8W,能效比39.7GOPS/W,通过对比表明该方法具有一定优势。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码货栈 ,原文地址:https://m.bishedaima.com/lunwen/48351.html