TIP | 从0°到360°: 上海交大提出一种让遥感分割网络"旋转不变"的即插即用方法, 代码开源!
创始人
2025-10-02 20:45:31
0

RS DL

题目:PreCM: The Padding-Based Rotation Equivariant Convolution Mode for Semantic Segmentation

期刊:IEEE Transactions on Image Processing, CCF-A, IF=13.7

代码https://github.com/XinyuXu414

年份:2025

单位:上海交通大学

    创新点
    • 基于填充的旋转等变卷积:通过数学推导证明可用简单padding操作实现旋转等变,突破了传统方法对图像尺寸和卷积核大小的严格限制。

    • 即插即用的替换组件:可直接替换网络中的标准卷积、扩张卷积、转置卷积等多种卷积类型,无需修改网络架构。

    • 三层群论框架:构建了提取-融合-压缩的卷积-群框架,在0°/90°/180°/270°实现严格旋转等变。

    • 新评价指标RD:首次提出量化旋转影响的Rotation Difference指标,直观衡量网络的抗旋转干扰能力。

    背景

    实际应用中,遥感卫星、医学成像、无人机监控等场景的成像角度往往是任意的,导致同一物体在不同角度下CNN分割结果不一致。

    现有解决方案存在明显局限:数据增强需要成倍增加训练数据和时间;基于群论的旋转等变网络(如G-CNNs)虽然在0°/90°/180°/270°有严格保证,但要求图像尺寸必须是卷积核的整数倍,限制了实际应用且无法支持扩张卷积、非对称卷积等常用变体;其他方法如圆谐波网络计算复杂度高,且在随机角度下性能仍明显下降。

    因此,本文旨在设计一个既有理论保证又实用灵活的旋转等变方法,能够适用于任意尺寸的图像和卷积核,作为即插即用的组件替换现有网络中的卷积层,在不增加训练数据的情况下显著提升分割精度和旋转鲁棒性。

    数据

    1. Satellite Images of Water Bodies(卫星遥感数据)

      • 2328张遥感图像(训练1662/测试666)

      • 二分类:水体 vs 非水体

      • 任意拍摄角度

    2. DRIVE(视网膜血管,医学数据)

    3. FloodNet(无人机遥感数据)

      • 1445张图像(训练1120/测试325)

      • 10类:建筑、道路、水体、树木等

      • 复杂多类别场景,目标交互复杂

      方法

      一、核心问题分析

      1. 现有方法的局限

      传统旋转等变网络基于卷积分配律,但这个定律有严格条件限制:

      • 要求图像和卷积核尺寸满足特定关系

      • 导致许多经典的特征图-卷积核组合无法使用

      • 限制了非对称卷积、扩张卷积等特殊卷积的应用

      2. PreCM的解决思路

      通过padding(填充)操作改变卷积模式,使卷积分配律在任意尺度下都能成立。

      二、理论框架:三层群结构

      基于群论构建旋转等变网络,使用 四元素循环群表示四个方向。

      第一层:方向特征提取

      • 对输入图像同时提取4个方向的特征

      • 使用4个旋转后的卷积核分别与输入卷积

      • 每个方向对应一个旋转角度(0°/90°/180°/270°)

      • 输出:4组不同方向的特征图

      第二层:相对方向学习

      • 使用直积群结构提取层间相对方向信息

      • 关键创新:卷积核根据相对旋转关系选择

        • 例如:第一层输出是90°特征,第二层需要180°特征,则使用相对旋转90°的卷积核

      • 对每个输入方向的4个可能输出方向分别计算

      • 输出:16组特征图(4输入×4输出)

      第三层:特征融合

      • 使用商群结构压缩多方向特征

      • 将16组特征图按输出方向分组求和(每组4个)

      • 再用旋转卷积核加权融合4个方向的特征

      • 输出:单一的旋转等变特征图

      三、PreCM的实现:基于Padding的卷积模式

      1. 核心思想

      通过精确控制padding值,使旋转后的图像卷积结果等价于先卷积再旋转。

      2. 技术路线

      • 步骤1:矩阵展开

        • 将二维卷积转换为矩阵乘法形式

        • 便于数学推导和行列变换分析

      • 步骤2:旋转变换分析

        • 分析图像旋转后,输出特征图的行列变换规律

        • 推导旋转卷积核与原卷积核的对应关系

      • 步骤3:Padding条件推导,通过数学推导得出关键条件:

        • 输出尺寸需满足特定关系(与输入、卷积核、步长、扩张率相关)

        • 不同旋转角度需要不同的padding配置

        • 四个方向的padding通过旋转矩阵相互关联

      • 步骤4:Padding方案设计

        • 根据期望输出尺寸反推所需padding

        • 优先在底部和左侧填充(取余数的一半向下取整)

        • 其余部分在顶部和右侧填充

      3. 四个卷积模式

      为实现0°/90°/180°/270°的等变性,定义4种padding配置:

      • 每种配置对应一个旋转角度

      • 自动满足旋转后的padding需求

      • 通过旋转矩阵计算相互关系

      四、PreCM作为替换组件

      1. 替换策略

      PreCM可看作一个包含三个子模块的函数:

        • PreCM1:替换网络第一个卷积层

        • PreCM2:替换中间所有卷积层(可循环使用)

        • PreCM3:替换最后一个卷积层

      2. 适用范围

        • 标准卷积:直接替换

        • 扩张卷积:调整padding中的扩张率参数

        • 转置卷积:调整padding计算公式中的步长

        • 非对称卷积:调整卷积核宽高参数

        • 多尺度图像:自动计算所需padding

      3. 网络修改

      以U-net为例:

        • 将编码器第一个Conv替换为PreCM1

        • 将所有中间Conv替换为PreCM2

        • 将解码器最后一个Conv替换为PreCM3

        • 其他结构(池化、激活、BN等)保持不变

      4. 通道数调整

      为保持参数量一致:

        • 由于使用4倍卷积核,中间层通道数减半

        • 输入输出通道保持不变

        • 这是可选操作,充足资源下可不调整

      结果与分析

      PreCM在多个数据集和网络架构上的替换实验表明,随机角度测试下IOU显著提升,旋转差异RD大幅降低,且在特殊角度实现严格等变性。与数据增强和其他旋转等变网络相比,PreCM在使用更少训练样本的情况下,同时在分割精度和旋转鲁棒性上取得全面领先,并显著提升了收敛速度。

        相关内容

        英伟达AI以太网平台拿下大...
        智东西 作者 | ZeR0 编辑 | 漠影 智东西10月13日报道...
        2025-10-14 07:44:38
        浙江大学团队创造AI视频角...
        这项由浙江大学张雪乔、罗亚伟等研究人员完成的研究发表于2025年9...
        2025-10-13 22:48:06
        携手合创AI+时代!中国移...
        10月11日,2025全球合作伙伴大会期间,中国移动成功举办以“碳...
        2025-10-13 10:17:08
        马斯克向伪造视频开炮:Gr...
        新榜讯 当下,AI视频生成技术正以惊人之势席卷网络,而马斯克旗下的...
        2025-10-13 09:19:49
        中国移动:AI投入翻一番 ...
        快科技10月12日消息,在2025中国移动全球合作伙伴大会主论坛上...
        2025-10-12 14:44:25
        首款星座 AI 潮玩AiM...
        灵犀智能打造随身情绪陪伴新体验 上海和深圳2025年10月8日--...
        2025-10-08 10:17:26

        热门资讯

        原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
        AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
        5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
        骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
        2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
        苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
        原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
        原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
        原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...