基于多源特征融合的电子竞技视频关键场景抽取方法研究
这是一篇关于多源特征融合,特征提取,视频分类,联合学习,电子竞技视频的论文, 主要内容为伴随移动网络技术的发展与普及,电子竞技作为体育项目在世界范围内被广泛地接纳,电子竞技直播平台用户规模与日俱增,电子竞技内容社区陆续崛起。电子竞技视频中的关键场景片段在内容社区中备受欢迎,会引起用户点赞、评论和分享等活跃社区氛围的互动。如何从电子竞技直播视频中高效地抽取精彩的关键场景,成为内容社区运营中亟需解决的问题。传统的人工剪辑方法成本较高,无法满足高效运营诉求;基于游戏指令的抽取方法直接而有效,但仅限于游戏开发商内部使用;采用深度学习技术的视频、音频或文本单特征的抽取方法研究较多,准确率也在不断提升,但融合多源特征的抽取方法较少。通过对电子竞技直播场景的观察,主播在游戏打斗精彩时的会伴以声音激昂的讲解,观众发送的弹幕取代了传统聊天室的消息,这些都极大地增强了直播间的氛围感,游戏画面、主播声音和观众弹幕可作为更广泛的关键场景特征来源。本文针对电子竞技视频的关键场景抽取方法做了改进,综合游戏视频、主播音频和弹幕文本三类特征,提出了一种基于多源特征融合的关键场景抽取方法。本文具体工作包括:(1)搭建了面向电子竞技直播平台的流式数据采集系统,通过该系统实现了按需实时采集电子竞技直播流和弹幕流数据,经过相应的数据预处理流程后,构建了包含游戏视频、主播音频和弹幕文本的电子竞技直播数据集,并借助自行开发的时段标签工具标注了精彩与非精彩的关键场景片段;(2)分别研究了基于视频、音频和文本的单特征抽取方法,设计了对应的特征提取网络;(3)在单特征的基础上,提出了投票和联合学习两种基于多源特征融合的关键场景抽取方法。投票的融合方法通过对多个单特征分别进行训练学习提取特征后,将多类单特征的预测值进行综合计算得出最终结果;联合学习的融合方法,将多特征朝着同一目标进行训练学习得到融合特征,再使用融合特征进行关键场景抽取。本文在流式采集系统所构建的电子竞技直播数据集上,进行了多组单特征抽取和融合特征抽取对比实验。实验结果表明,本文所提方法在查准率和查全率上优于现有的单特征抽取方法。并设计了结合直播系统和推荐系统的关键场景抽取系统,使其适合应用于游戏社区的精彩视频内容抽取场景。
面向信息冗余的视频分类关键技术研究
这是一篇关于工业设备监测,视频分类,深度学习,关键视频提取,聚类算法的论文, 主要内容为现代化工业设备日益精密化和复杂化,企业对工业设备的安全性实时监控提出了更高的要求。目前,企业常常通过监控视频实时监测工业生产环境中主要设备的工作运行状态,但此类监控视频往往不间断地记录了设备在运行和非运行状态下的所有信息,存在大量的信息冗余,导致异常检测效率不高和监控数据存储空间过大。因此,本文以工业设备运行状态监控视频检测为应用背景,针对实际场景中同一类设备监控视频镜头较为相似的特点,提出了一种关键视频提取算法CTM-NN和一种基于深度学习改进的双流视频分类算法Res-3D,以实现对工业设备监控视频的分类检测,实时监控设备运行状态。本文的主要研究工作如下:(1)针对工业设备监控视频存在大量信息冗余的问题,本文提出了一种关键视频提取算法CTM-NN,实现从存在大量冗余信息的原始设备监控视频中提取出设备运行态下的关键视频数据。该算法首先采用基于设定阈值的帧间差分法提取视频中的关键帧,然后使用HOG+HSV颜色空间一阶矩特征提取关键帧特征向量,进而利用K-means++聚类算法将特征向量聚类并实现关键帧的半自动标记,最终基于Res Net-50模型实现监控视频中关键视频的提取。实验结果表明,CTM-NN算法对关键帧提取的精度达95.10%以上,实现了对工业设备特定运行状态下关键视频的准确提取。(2)针对现有视频分类算法对工业监控视频分类存在准确率低的问题,本文提出了一种基于深度学习改进的双流视频分类算法Res-3D,实现了对工业设备监控视频的分类和设备运行状态的实时检测。本算法依次构建了面向视频特征提取的加入注意力模块的Res Net-34网络和面向视频分类改进的C3D网络,然后采用帧间差法获取的关键帧数量对分类结果进行优化,最后在UCF101数据集和混凝土搅拌视频数据集上进行训练与测试实验。实验结果表明,对比目前流行的视频分类模型Two-stream、C3D等,本文提出的算法分类准确率比C3D提升了6.2%,在工业设备监控视频分类上具有较好的准确度。(3)基于本文研究的关键视频提取算法CTM-NN和基于深度学习改进的双流视频分类算法Res-3D,基于混凝土搅拌设备实时监控的实际需求,设计并实现了一个工业设备监控视频分类检测系统,实现了从摄像头采集到工业监控视频分类检测的一体化应用。该系统主要包括:视频录入、关键帧检测、关键视频提取、视频分类、过程可视化、视频存储等功能。管理人员可随时对设备监控视频进行分类检测,同时存贮检测视频和分类视频信息,实时监控设备的运行状态,该系统的应用为高效安全生产提供了有力的保障。综上所述,本文首先提出CTM-NN算法和Res-3D算法分别实现了工业设备监控视频的关键视频提取和设备监控视频的分类,并基于混凝土搅拌设备实时监控的实际需求,在本文所提两种算法的基础上设计并实现了一个工业设备监控视频分类检测系统,实现了从摄像头采集到的工业监控视频分类检测的一体化应用。经实际应用验证,系统实现了较为满意的分类精度,有效提高了设备监测效率,保障了安全生产。
视频影音后台管理系统的设计与实现
这是一篇关于内容管理系统,SSH,JavaEE,文本挖掘,视频分类的论文, 主要内容为近年来,随着国民经济的发展和人民生活水平的提高,国民的娱乐需求增加,在i Pad、i Phone、Android等智能设备上,移动应用逐渐成为人们娱乐生活的必需品。在线视频行业飞速发展,用户规模逐渐扩大,视频资源也呈现爆发式增长,带来的商业资源随之不断升值,使得在线视频平台的资源管理更加注重效率。论文选题来源于某互联网在线视频服务公司的主流业务,随着平台用户规模扩大和视频资源的增长,原有后台管理系统无法满足高效率管理需求,针对客户端频道多、视频内容量庞大、标签体系逐渐健全的特点,需要建立一套更为成熟的视频影音后台管理系统。论文根据现有业务场景和后台管理人员实际需求,设计并开发一套视频影音后台管理系统,方便管理人员对网站资源实现“频道-栏目-视频源-标签”分层级管理,并提供自动化的分类算法帮助后台管理人员对庞大的视频资源进行分类操作。论文从技术选型、需求设计、实际开发、测试上线的软件工程角度,描述了一个视频影音后台管理系统的开发全过程。系统采用Java EE和SSH框架,前端主要使用React框架,使用分布式存储结构,Hadoop集群环境下使用HDFS存储视频文件,项目基于Mongo DB数据库和My SQL数据库进行开发,实现了管理员信息管理、频道信息管理、栏目信息管理、视频信息管理和视频分类等功能模块;在视频分类模块中,使用基于改进TF-IDF(Term Frequency–Inverse Document Frequency)的朴素贝叶斯分类算法,实现了提取视频标签以及自动化分类视频资源;最后完成了系统测试。系统目前已经开发完毕上线运行,为后台运营管理人员提供的更为便捷高效的管理体验,从而有效的提升了客户端的用户体验。
基于文本挖掘的视频标签生成及视频分类研究
这是一篇关于视频分类,视频标签,特征项评估,朴素贝叶斯的论文, 主要内容为在信息技术高速发展的时代,人们获取信息的途径正在逐渐从报纸、广播、电视等传统媒体向互联网上的多媒体数据转移。加之手机、iPad等移动电子设备的广泛使用,网络上的视频、音乐、文字等数据已经成为人们获取、存储信息的重要来源。由于网络资源规模的迅速增长,导致视频数据量十分庞大。如果不将这些视频数据进行有效的整理,无论是用户想快速获取数据,还是资源管理者想处理这些信息,都将变得十分困难。因此,通过对视频资源进行分类整理,构建结构化的数据库,将极大地提高互联网用户获取自己所需视频资源的速率,并且能帮助资源管理者高效率地分析、处理视频数据,从中分析用户的行为以及喜好,挖掘出更多的商业价值。视频分类方法主要分为两大类。一类是基于图像特征,通过分析关键帧的图像性质来对视频进行分类的方法。研究发现这类方法时间、空间成本高,并且受图像质量影响,其局限性大、效率低。另一类是基于文本挖掘,通过分析视频的文本信息来将视频进行分类的方法。用于挖掘的语料主要来自于视频的基本描述、用户所贡献的标签以及评论等信息。由于文本数据处理的效率相对较高,技术相对成熟,因此,基于文本挖掘的视频分类方法具有可行性以及研究价值。本文主要研究以下几方面内容:(1)通过对视频推荐的特征和需求进行分析,发现运用视频分类与视频标签对于优化推荐效果的可行性。从文本挖掘的角度和层面来构建视频分类模型,主要包括数据采集、文本预处理、特征空间降维、分类器训练、分类器评估等环节。(2)重点研究文本挖掘的关键环节:特征空间降维和分类器训练。特征项评估函数和分类模型直接决定了特征项空间的构成,影响最后分类的效果。本文基于已有的文本挖掘理论,提出了一种TCD(Term Category Discrimination)特征评估方法。并基于χ2统计和概率调整技术,对朴素贝叶斯的先验概率计算进行了改进,并通过实验验证改进后的分类模型具有更准确的分类效果。(3)基于朴素贝叶斯的后验概率以及分类结果,重新设计视频相似度的计算方式。以TCD特征评估函数值与TFIDF值相结合的方法,给视频打上标签。并将两者同时应用于视频推荐策略中。(4)在已完成视频分类的基础上,设计视频推荐系统。根据用户的观影行为,将视频标签转换成用户标签,基于计算好的视频相似度和用户标签,设定多种推荐策略。并对推荐接口的功能、后台数据、推荐效果、系统性能进行测试,将基于文本挖掘的视频分类应用于视频推荐,能够优化推荐效果、提高推荐效率。
基于深度学习的航路环境感知技术研究与应用
这是一篇关于智能船舶,航路环境感知,目标检测,视频分类,多标签分类的论文, 主要内容为水路运输是国民经济的基础,作为水路的重要交通工具,船舶航行安全尤为重要。随着《智能船舶发展行动计划(2019-2021年)》、《中国制造2025》等文件的提出,智能船舶将是未来重要的发展方向之一。自主环境感知是智能船舶的重要功能。目前,船舶航行的环境信息主要通过海事雷达(Marine radar)、电子海图(Electronic Chart Display and Information System,ECDIS)、船舶自动识别系统(Automatic Identification System,AIS)等来获取。伴随计算机运算效率的提升,基于计算机视觉和深度学习的感知系统,可以作为有效的技术方案和手段来获取环境信息,为船舶导航提供服务。因此,本文利用深度学习技术对航路环境感知算法进行设计,并开发航路环境感知系统,以服务于智能船舶导航和海事监管。本文的主要研究内容如下:(1)水上目标检测是航路环境感知的核心。水上目标种类繁多,包括船舶、航标、桥梁以及其他障碍物等。为了保证船舶的安全,一个高效的检测算法是必不可少的。分析目前性能SOTA(State-Of-The-Arts)的目标检测算法,选择了兼顾精度与速度的单阶段(one-stage)目标检测算法YOLOv4作为本文检测算法的基线模型。为了使其更好地适用于水上目标检测,对其进行了改进。首先,利用参数重构技术对目标检测的骨干网络(Backbone)进行优化,在提高模型特征提取能力的同时,加快模型的推理速度。其次,利用注意力机制和跨层连接的思想对特征金字塔结构(Feature Pyramid Networks,FPN)进行改进,提高了模型的多尺度检测能力并进一步减小模型的参数量。最后,利用空洞卷积对原有的空间金字塔池化层(Spatial Pyramid Pooling,SPP)进行改进,弥补了原有的最大池化层信息丢失的缺陷,有效地扩大了模型的感受野。最终,本文提出了水上目标检测算法Ship YOLOv2,并在公开的水上目标检测数据集WSODD(Water Surface Object Detection Dataset)进行了实验。相比于已有的SOTA算法,Ship YOLOv2在保证实时推理速度的同时有着最好的检测精度。(2)航标是众多水上目标中一个特殊的类别,其作为重要的助航标志,在白天可以通过目标检测算法得到对应的助航信息。到了夜间,助航信息的获取主要来自航标灯质,其是一段具有动态信息的视频。因此,本文提出了一个新颖的多标签视频分类算法NMLNet来完成夜间航标灯质的识别。首先,NMLNet采用了双分支结构。输入的视频帧被分成RGB格式图像和V通道(Value)格式图像,作为NMLNet两个分支的输入。RGB分支用于进行航标灯的颜色标签识别,V通道分支用于航标灯的闪烁标签识别。其次,将通道注意力机制融入到轻量的特征提取算法Mobile Netv2中,作为闪烁标签分类的骨干网络(Backbone),用于完成颜色标签的分类任务。对于闪烁标签,利用基于CNN&LSTM的视频分类算法来完成识别。最后,根据航标灯质的分类规则,利用二元相关方法(binary relevance)对多标签识别结果进行融合。通过在自制的夜间航标灯质数据上进行实验,证明了本文提出的NMLNet可以有效地完成夜间航标灯质的识别任务。(3)基于Ship YOLOv2和NMLNet算法,开发了航路环境感知系统,可服务于智能船舶。根据系统功能需求,基于B/S架构利用Flask框架完成系统的后端开发,Vue框架完成系统的前端页面设计,利用My SQL完成系统数据库的构建,并通过Tensor RT技术对深度学习模型进行加速,提高系统的运行效率。论文提出的水上目标检测算法和夜间航标灯质识别算法实现了对水上目标的感知,设计开发的航路环境感知系统可提供基于图像和视频的水上目标检测、视频分类等功能,研究成果可以为智能船舶的航行提供有效的视觉感知服务,具有应用价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工坊 ,原文地址:https://m.bishedaima.com/lunwen/52564.html