视频理解论文串讲（上）【论文精读】

创始人

2024-03-27 16:18:55

0次

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
- - LSTM late fusion 方向【Beyond-short-snippets】
  - Early fusion方向【Convolutional fusion】
  - 长视频【TSN temporal segment 分段的思想，good work】
总结

from：https://www.bilibili.com/video/BV1fL4y157yA
在这里插入图片描述

在这里插入图片描述

1. DeepVedio【CNN 首次 for 视频理解】

在这里插入图片描述

方法1：融合fusion
在这里插入图片描述
方法2：多分辨率 CNN 网络

效果

在这里插入图片描述

总结：

当时手工特征最好就能达到87了，本文效果远远不如手工特征
这篇文章的意义在于：【这篇文章的意义不在于它的效果】
- 引发大家思考：深度学习在视频理解领域碰壁了
- 提出了视频理解领域最大的数据集
- 把能想到的融合方式都尝试了一遍，给后续工作很好的铺垫，这才有了后面几年深度学习在视频领域的飞速发展

2. Two-Stream【双流网络】

在这里插入图片描述
方法：
当你用一个卷积神经网络无法很好处理时序信息的时候，

在这里插入图片描述

大幅提高了性能，证明了双流网络的成功，迅速就有很多工作跟进了…
我们其实单从这个图里就能看到，比较容易想到的想法

fusion？怎么做early fusion？中间fusion？
替换 backbone，如何在小数据集上控制过拟合？
在抽出来的特征之上，再加LSTM，把它们之间的这些时序信息模拟起来，最后得到的特征更强
长时间视频理解？

针对上面不同方向，有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

现在深度学习时代，用CNN去抽特征，关键是如何做pooling操作？这篇论文里做了非常详尽的探索，还做了ConvPooling，latePooling…，最后的结论都是差不多，ConvPooling表现最好

在这里插入图片描述
如何使用LSTM？

C是最后抽出来的特征

在这里插入图片描述
效果：

LSTM没有那么有用…

手工87.9，双流网络88.0，本文在双流网络上做的所以效果要比他好，88.2，88.6，只好了1点点，LSTM带来的提升非常有限

在这里插入图片描述
朱毅老师对此现象的解释：

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
- - LSTM late fusion 方向【Beyond-short-snippets】
  - Early fusion方向【Convolutional fusion】
  - 长视频【TSN temporal segment 分段的思想，good work】
总结

Early fusion方向【Convolutional fusion】

关键词：fusion
这篇文章，非常细致地讲了，如何做这种 fusion，如果在两个流之间做fusion

在这里插入图片描述

Spatial fusion【空间维度】

在特征图上

在这里插入图片描述

接下来的问题是说，到底在网络的哪个部分做fusion呢？
到底是偏前面的层conv1，conv2，还是偏后面的conv4，conv5？还是最后的分类层fc6，fc7？

两个方法：
在这里插入图片描述

如何做temporal fusion？

在这里插入图片描述

最后作者得出的方案：

在这里插入图片描述

效果：

尝试1：backbone 换成 VGG，提升还是明显的

在这里插入图片描述

这篇文章的贡献: 1. 详尽的消融实验探索；2. 使用了3D CNN，变相推动3D CNN的发展
【启发：一篇文章的效果不只是看结果好不好，一些探索实验能否给后来研究者一些探索，启发等… 和第一篇论文很像，虽然结果不好，但是做了很多探索实验】

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
- - LSTM late fusion 方向【Beyond-short-snippets】
  - Early fusion方向【Convolutional fusion】
  - 长视频【TSN temporal segment 分段的思想，good work】
总结

长视频【TSN temporal segment 分段的思想，good work】

在这里插入图片描述

方法：分段

想法非常简单，给视频分段的思想，good work

在这里插入图片描述

好用的技巧：

光流模型初始化【RGB做平均复制20份】：

在这里插入图片描述

第二个技巧：模型正则化
第3个技巧：数据增强

在这里插入图片描述

效果：

在这里插入图片描述

文章目录

1. DeepVedio【CNN 首次 for 视频理解】
2. Two-Stream【双流网络】
- 针对上面不同方向，有不同的代表工作
- - LSTM late fusion 方向【Beyond-short-snippets】
  - Early fusion方向【Convolutional fusion】
  - 长视频【TSN temporal segment 分段的思想，good work】
总结

总结

在这里插入图片描述

没整理完，，，转移到本地了，加上whisper的翻译…

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：Ubuntu20运行SegNeXt代码提取道路水体(二)——SegNeXt源代码安装到测试环境配置全过程摸索

下一篇：【计算机网络】应用层

视频理解论文串讲（上）【论文精读】

文章目录

1. DeepVedio【CNN 首次 for 视频理解】

2. Two-Stream【双流网络】

针对上面不同方向，有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

文章目录

Early fusion方向【Convolutional fusion】

文章目录

长视频【TSN temporal segment 分段的思想，good work】

文章目录

总结

相关内容

热门资讯

视频理解论文串讲（上）【论文精读】

文章目录

1. DeepVedio【CNN 首次 for 视频理解】

2. Two-Stream【双流网络】

针对上面不同方向，有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

文章目录

Early fusion方向【Convolutional fusion】

文章目录

长视频 【TSN temporal segment 分段的思想，good work】

文章目录

总结

相关内容

热门资讯

长视频【TSN temporal segment 分段的思想，good work】