from:https://www.bilibili.com/video/BV1fL4y157yA
方法1:融合fusion
方法2:多分辨率 CNN 网络
效果
总结:
方法:
当你用一个卷积神经网络无法很好处理时序信息的时候,
大幅提高了性能,证明了双流网络的成功,迅速就有很多工作跟进了…
我们其实单从这个图里就能看到,比较容易想到的想法
现在深度学习时代,用CNN去抽特征,关键是 如何做pooling操作?这篇论文里做了非常详尽的探索,还做了ConvPooling,latePooling…,最后的结论都是差不多,ConvPooling表现最好
如何使用LSTM?
效果:
手工87.9,双流网络88.0,本文在双流网络上做的所以效果要比他好,88.2,88.6,只好了1点点,LSTM带来的提升非常有限
朱毅老师对此现象的解释:
关键词:fusion
这篇文章,非常细致地讲了,如何做这种 fusion,如果在两个流之间做fusion
Spatial fusion【空间维度】
在特征图上
接下来的问题是说,到底在网络的哪个部分做fusion呢?
到底是偏前面的层conv1,conv2,还是偏后面的conv4,conv5?还是最后的分类层fc6,fc7?
两个方法:
如何做temporal fusion?
最后作者得出的方案:
效果:
这篇文章的贡献: 1. 详尽的消融实验探索;2. 使用了3D CNN,变相推动3D CNN的发展
【启发:一篇文章的效果不只是看结果好不好,一些探索实验能否给后来研究者一些探索,启发等… 和第一篇论文很像,虽然结果不好,但是做了很多 探索实验】
方法:分段
想法非常简单, 给 视频分段 的思想,good work
好用的技巧:
第二个技巧:模型正则化
第3个技巧:数据增强
效果:
没整理完,,,转移到本地了,加上whisper的翻译…