【行为识别】论文阅读笔记2|C3D：使用3D卷积网络学习时空特征-白红宇

【行为识别】论文阅读笔记2|C3D：使用3D卷积网络学习时空特征

阅读量：2054 次

发布时间：2019-04-28

本文共 2634 字，大约阅读时间需要 8 分钟。

Learning Spatiotemporal Features with 3D Convolutional Networks

在这里插入图片描述

摘要

提出了一个简单但有效的学习时空特征的方法，利用在大规模监督视频数据集上训练得到的深度三维卷积网络（3D ConvNets）学习。

贡献主要有三个方面：

对比2D卷积网络，3D卷积网络更适合学习时空特征。

对3D卷积网络来说，在所有层都用3×3×3的小卷积效果最好。

将由一个简单的线性分类器学习到的特征命名为C3D（Convolutional 3D），在4个不同基准上效果比最新的方法好，并且在另2个基准上和现在最好的方法效果不分轩轾。

并且，特征非常紧密：在UCF101数据集上只用了10维就达到52.8%的准确率，并且因为ConvNets的推理速度快，C3D计算效率很高。C3D不仅概念简单，也易于训练和使用。

引言

为了对抗信息爆炸，需要理解和分析视频。目前计算机视觉研究者在视频分析的不同问题，例如行为识别，异常事件检测，行为理解等方面，都做了很多工作，针对具体的问题进行具体的分析，但是，没有通用的视频描述符来以同样的方式处理大量视频任务。

一个有效的视频描述符具有4个属性：

通用性。描述符要能够表示不同类型的视频，同时还要具有区分度。例如，互联网上的视频有关于地貌的，有关于自然风光的，有关于运动的，电视剧的，电影的，宠物的，食物的等等。

紧凑性。紧凑的描述符能够帮助处理，存储，在不同大小的目标域中检索数以百万计的视频。

高效性。描述符要能够在现实系统中每分钟处理成千视频。

易实施性。即使用简单的模型（例如线性分类器），描述符也要能够很好地运行。

深度学习图像领域，各种各样的预训练卷积网络模型用于提取图像特征。这些特征是网络最后几个全连接层的激活值，在迁移学习任务中表现良好。但是，这些机遇图片的深度特征不能直接用于视频，因为缺少运动模型。于是提出C3D。通过实验，用简单线性分类器学习到的特征在多种视频分析任务中都能有很好的效果。虽然之前3D卷积网络被提出过牡丹石C3D在大量监督训练数据集合现代深度框架前提下，在不同类型的视频分析任务中，取得的效果是最好的。3D卷积玩过提取到的特征概括了视频中的目标物体的信息，场景信息和运动信息，使得不用去finetune模型就能解决不同的视频分析任务。C3D拥有有效的视频描述符应具有的4个属性，通用性，紧凑型，高效性和易实施性。贡献总结如下：

实验证明3D卷积网络是好的特征学习器，能够同时学到对外观和运动进行建模。

实验发现在了解的有限框架内，所有层使用3×3×3卷积核效果是最好的。

所提出的基于简单的线性模型提取特征的方法，在4个不同的视频分析任务和6个不同的基准上表现出来的效果比现在最好的方法好（或是接近）。

表1展示了C3D和目前最好的方法比较结果。通过表格结果，可见C3D除了在Sports-1M和UCF101两个基准上，比之前表现效果最好的一些方法结果还要好。在UCF101上，放上了两个方法得到的结果，85.2这个结果只使用了RGB帧作为输入，90.4这个结果使用了所有可能的特征（光流，提高后的密集轨迹）。

用3D卷积网络学习特征

本部分阐述了3D卷积网络的基本操作细节，分析了3D卷积网络的不同结构，并阐述了如何在大规模数据及上针对特征学习进行训练。

3D卷积和池化

与2D卷积网络相对比，3D卷积网络能够更好地对时间信息进行建模，因为有3D卷积和3D池化操作。在3D卷积网络中，卷积和池化操作是在时空上执行的，但是2D卷积网络只在空间上执行。图1阐述了这种不同。应用在一张图片上的2D卷积会输出一张图片，应用在多张图片（将它们视作不同通道）上的2D卷积输出也是一张图片。因此，2D卷积网络在每次卷积运算后就会丢失输入信号的时间信息。只有3D卷积才能保留输入信号的时间信息，最后得到一个输出卷。在2D和3D池化操作上也有相同的现象。在双流结构中，尽管时间网络将多帧作为输入，但因为是2D卷积，在第一次卷积层后，时间信息就完全消失了。[18]的融合模型使用2D卷积，大部分网络在第一层卷积层后就丢失了输入的时间信号，只有慢融合[18]模型在第一个3卷积层中使用了3D卷积和平均池化，作者坚信这是慢融合模型取得的效果比[18]中研究的其他网络效果好的原因。遗憾的是，慢融合仍然在第三个卷积层后丢失了所有时间信息。

作者通过经验去尝试找到一个良好的3D卷积网络架构。因为在大规模视频数据集上训练深度网络是非常耗时的，所以首先在中型数据集UCF101上进行实验，去寻找最好的架构。后来在一个大规模的数据集中，用少量网络实验验证了发现。根据在2D卷积网络中的发现，具有更深的结构的3×3卷积核的小视野域取得的效果更好。因此，针对架构搜寻研究，固定空间感受野大小为3×3，仅改变时间3D卷积核的深度。

转载地址：http://khdlf.baihongyu.com/

你可能感兴趣的文章

【Python】xpath中为什么粘贴进去代码后老报错？如何在定位元素的时候准确找到定位切入点？...

Learning Spatiotemporal Features with 3D Convolutional Networks

摘要

引言

相关工作

用3D卷积网络学习特征

3D卷积和池化