视频理解论文串讲(上)【论文精读】
创始人
2024-03-27 16:18:55
0

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

from:https://www.bilibili.com/video/BV1fL4y157yA
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. DeepVedio【CNN 首次 for 视频理解】

在这里插入图片描述

方法1:融合fusion
在这里插入图片描述
方法2:多分辨率 CNN 网络
在这里插入图片描述
效果

在这里插入图片描述

总结:

  • 当时手工特征最好就能达到87了,本文效果远远不如手工特征
  • 这篇文章的意义在于:【这篇文章的意义不在于它的效果】
    • 引发大家思考:深度学习在视频理解领域碰壁了
    • 提出了视频理解领域最大的数据集
    • 把能想到的融合方式都尝试了一遍,给后续工作很好的铺垫,这才有了后面几年深度学习在视频领域的飞速发展
      在这里插入图片描述

2. Two-Stream【双流网络】

在这里插入图片描述
方法:
当你用一个卷积神经网络无法很好处理时序信息的时候,
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大幅提高了性能,证明了双流网络的成功,迅速就有很多工作跟进了…
我们其实单从这个图里就能看到,比较容易想到的想法

  • fusion?怎么做early fusion? 中间fusion?
  • 替换 backbone,如何在小数据集上 控制过拟合?
  • 在抽出来的特征之上,再加LSTM,把它们之间的这些时序信息模拟起来 ,最后得到的特征更强
  • 长时间视频理解?

针对上面不同方向,有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

现在深度学习时代,用CNN去抽特征,关键是 如何做pooling操作?这篇论文里做了非常详尽的探索,还做了ConvPooling,latePooling…,最后的结论都是差不多,ConvPooling表现最好

在这里插入图片描述
如何使用LSTM?

  • C是最后抽出来的特征

在这里插入图片描述
效果:

  • LSTM没有那么有用…
    在这里插入图片描述

手工87.9,双流网络88.0,本文在双流网络上做的所以效果要比他好,88.2,88.6,只好了1点点,LSTM带来的提升非常有限

在这里插入图片描述
朱毅老师对此现象的解释:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

Early fusion方向【Convolutional fusion】

关键词:fusion
这篇文章,非常细致地讲了,如何做这种 fusion,如果在两个流之间做fusion

在这里插入图片描述

Spatial fusion【空间维度】

在特征图上

在这里插入图片描述

接下来的问题是说,到底在网络的哪个部分做fusion呢?
到底是偏前面的层conv1,conv2,还是偏后面的conv4,conv5?还是最后的分类层fc6,fc7?

两个方法:
在这里插入图片描述

如何做temporal fusion?

在这里插入图片描述

最后作者得出的方案:

在这里插入图片描述

效果:

  • 尝试1:backbone 换成 VGG,提升还是明显的

在这里插入图片描述

这篇文章的贡献: 1. 详尽的消融实验探索;2. 使用了3D CNN,变相推动3D CNN的发展
【启发:一篇文章的效果不只是看结果好不好,一些探索实验能否给后来研究者一些探索,启发等… 和第一篇论文很像,虽然结果不好,但是做了很多 探索实验】

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

长视频 【TSN temporal segment 分段的思想,good work】

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

方法:分段

想法非常简单, 给 视频分段 的思想,good work

在这里插入图片描述

好用的技巧:

  • 光流 模型初始化【RGB做平均复制20份】:
    • 在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 第二个技巧:模型正则化
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  • 第3个技巧:数据增强

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
效果:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

总结

在这里插入图片描述


没整理完,,,转移到本地了,加上whisper的翻译…

相关内容

热门资讯

保存时出现了1个错误,导致这篇... 当保存文章时出现错误时,可以通过以下步骤解决问题:查看错误信息:查看错误提示信息可以帮助我们了解具体...
汇川伺服电机位置控制模式参数配... 1. 基本控制参数设置 1)设置位置控制模式   2)绝对值位置线性模...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
表格中数据未显示 当表格中的数据未显示时,可能是由于以下几个原因导致的:HTML代码问题:检查表格的HTML代码是否正...
本地主机上的图像未显示 问题描述:在本地主机上显示图像时,图像未能正常显示。解决方法:以下是一些可能的解决方法,具体取决于问...
表格列调整大小出现问题 问题描述:表格列调整大小出现问题,无法正常调整列宽。解决方法:检查表格的布局方式是否正确。确保表格使...
不一致的条件格式 要解决不一致的条件格式问题,可以按照以下步骤进行:确定条件格式的规则:首先,需要明确条件格式的规则是...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...