RS DL
题目:PreCM: The Padding-Based Rotation Equivariant Convolution Mode for Semantic Segmentation
期刊:IEEE Transactions on Image Processing, CCF-A, IF=13.7
代码: https://github.com/XinyuXu414
年份:2025
单位:上海交通大学
基于填充的旋转等变卷积:通过数学推导证明可用简单padding操作实现旋转等变,突破了传统方法对图像尺寸和卷积核大小的严格限制。
即插即用的替换组件:可直接替换网络中的标准卷积、扩张卷积、转置卷积等多种卷积类型,无需修改网络架构。
三层群论框架:构建了提取-融合-压缩的卷积-群框架,在0°/90°/180°/270°实现严格旋转等变。
新评价指标RD:首次提出量化旋转影响的Rotation Difference指标,直观衡量网络的抗旋转干扰能力。
实际应用中,遥感卫星、医学成像、无人机监控等场景的成像角度往往是任意的,导致同一物体在不同角度下CNN分割结果不一致。
现有解决方案存在明显局限:数据增强需要成倍增加训练数据和时间;基于群论的旋转等变网络(如G-CNNs)虽然在0°/90°/180°/270°有严格保证,但要求图像尺寸必须是卷积核的整数倍,限制了实际应用且无法支持扩张卷积、非对称卷积等常用变体;其他方法如圆谐波网络计算复杂度高,且在随机角度下性能仍明显下降。
因此,本文旨在设计一个既有理论保证又实用灵活的旋转等变方法,能够适用于任意尺寸的图像和卷积核,作为即插即用的组件替换现有网络中的卷积层,在不增加训练数据的情况下显著提升分割精度和旋转鲁棒性。
数据
1. Satellite Images of Water Bodies(卫星遥感数据)
2328张遥感图像(训练1662/测试666)
二分类:水体 vs 非水体
任意拍摄角度
2. DRIVE(视网膜血管,医学数据)
3. FloodNet(无人机遥感数据)
1445张图像(训练1120/测试325)
10类:建筑、道路、水体、树木等
复杂多类别场景,目标交互复杂
一、核心问题分析
1. 现有方法的局限
传统旋转等变网络基于卷积分配律,但这个定律有严格条件限制:
要求图像和卷积核尺寸满足特定关系
导致许多经典的特征图-卷积核组合无法使用
限制了非对称卷积、扩张卷积等特殊卷积的应用
2. PreCM的解决思路
通过padding(填充)操作改变卷积模式,使卷积分配律在任意尺度下都能成立。
二、理论框架:三层群结构
基于群论构建旋转等变网络,使用 四元素循环群表示四个方向。
第一层:方向特征提取
对输入图像同时提取4个方向的特征
使用4个旋转后的卷积核分别与输入卷积
每个方向对应一个旋转角度(0°/90°/180°/270°)
输出:4组不同方向的特征图
第二层:相对方向学习
使用直积群结构提取层间相对方向信息
关键创新:卷积核根据相对旋转关系选择
例如:第一层输出是90°特征,第二层需要180°特征,则使用相对旋转90°的卷积核
对每个输入方向的4个可能输出方向分别计算
输出:16组特征图(4输入×4输出)
第三层:特征融合
使用商群结构压缩多方向特征
将16组特征图按输出方向分组求和(每组4个)
再用旋转卷积核加权融合4个方向的特征
输出:单一的旋转等变特征图
三、PreCM的实现:基于Padding的卷积模式
1. 核心思想
通过精确控制padding值,使旋转后的图像卷积结果等价于先卷积再旋转。
2. 技术路线
步骤1:矩阵展开
将二维卷积转换为矩阵乘法形式
便于数学推导和行列变换分析
步骤2:旋转变换分析
分析图像旋转后,输出特征图的行列变换规律
推导旋转卷积核与原卷积核的对应关系
步骤3:Padding条件推导,通过数学推导得出关键条件:
输出尺寸需满足特定关系(与输入、卷积核、步长、扩张率相关)
不同旋转角度需要不同的padding配置
四个方向的padding通过旋转矩阵相互关联
步骤4:Padding方案设计
根据期望输出尺寸反推所需padding
优先在底部和左侧填充(取余数的一半向下取整)
其余部分在顶部和右侧填充
3. 四个卷积模式
为实现0°/90°/180°/270°的等变性,定义4种padding配置:
每种配置对应一个旋转角度
自动满足旋转后的padding需求
通过旋转矩阵计算相互关系
四、PreCM作为替换组件
1. 替换策略
PreCM可看作一个包含三个子模块的函数:
PreCM1:替换网络第一个卷积层
PreCM2:替换中间所有卷积层(可循环使用)
PreCM3:替换最后一个卷积层
2. 适用范围
标准卷积:直接替换
扩张卷积:调整padding中的扩张率参数
转置卷积:调整padding计算公式中的步长
非对称卷积:调整卷积核宽高参数
多尺度图像:自动计算所需padding
3. 网络修改
以U-net为例:
将编码器第一个Conv替换为PreCM1
将所有中间Conv替换为PreCM2
将解码器最后一个Conv替换为PreCM3
其他结构(池化、激活、BN等)保持不变
4. 通道数调整
为保持参数量一致:
由于使用4倍卷积核,中间层通道数减半
输入输出通道保持不变
这是可选操作,充足资源下可不调整
PreCM在多个数据集和网络架构上的替换实验表明,随机角度测试下IOU显著提升,旋转差异RD大幅降低,且在特殊角度实现严格等变性。与数据增强和其他旋转等变网络相比,PreCM在使用更少训练样本的情况下,同时在分割精度和旋转鲁棒性上取得全面领先,并显著提升了收敛速度。