HyperAIHyperAI

Command Palette

Search for a command to run...

TorchVision 实例分割微调教程

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

一句话总结

本文引入面向特定任务的数据增强与推理处理策略,通过利用视觉归纳先验解决2022年VIPriors实例分割挑战赛中的数据稀缺问题,在基于Swin-Base的CBNetV2骨干网络上使用Hybrid Task Cascade检测器,取得了0.531的[email protected]:0.95成绩。

核心贡献

  • 本文通过系统地将视觉归纳先验整合至训练流程中,解决数据匮乏的实例分割问题,以弥补样本数量的不足。
  • 引入面向特定任务的数据增强流水线,将视角特定与人物-篮球交互的复制粘贴操作与几何及光度变换相结合,并配合面向特定任务的推理处理策略,以最大化先验信息的利用。
  • 在2022年VIPriors实例分割挑战赛上的实验评估表明,该方法在测试集上取得0.531的[email protected]:0.95得分,采用Hybrid Task Cascade检测器搭配Swin-Base CBNetV2骨干网络,且模型完全从头训练。

引言

缺乏源材料无法概述技术背景与应用领域。在未提供研究正文或摘要前,无法明确先前工作的局限性及作者的核心贡献。请提供相关文本,以便按照指定格式撰写背景总结。

数据集

数据集构成与来源

  • 采用VIPriors实例分割挑战赛官方数据集,该数据集包含篮球场视角的照片,涵盖篮球运动员、教练、裁判与篮球。
  • 数据集划分为训练集与验证集,测试图像预留用于挑战赛评估。

子集详情与元数据

  • 原始数据集包含1,840张训练图像与620张验证图像。
  • 视角元数据通过图像文件名自动提取,文件名末尾的“0”表示右侧球场视角,其他后缀表示左侧球场视角。
  • 篮球变体分为彩色(多色)与纯色(单色)两类,原始训练数据严重偏向彩色样本。

数据处理与增强流水线

  • 首先从训练集与验证集中裁剪所有人物与篮球及其掩码标注,为实例级操作做准备。
  • 采用视角特定的复制粘贴策略,将目标放置于数学约束区域内,以确保球场分布均匀,并严格排除观众席区域。
  • 进行针对篮球的复制粘贴阶段,通过将篮球粘贴至人物边界框内模拟人物与篮球的交互,并通过调整RGB值概率性地生成纯色篮球变体,以平衡颜色分布。
  • 基础变换对每张图像应用随机几何操作(剪切、旋转或平移)与完整光度畸变(亮度、对比度、饱和度、色调)。

训练配置与最终处理

  • 原始2,460张图像在增强前未经修改地复制十次,以扩充训练池。
  • 增强后的图像进行随机缩放(短边820至3,080像素,长边最高3,680像素),随后进行随机裁剪与填充,固定分辨率为1,920乘1,440。
  • 模型使用AdamW优化器从头训练,初始学习率为0.0001,收敛后采用随机权重平均(SWA)进行微调。

方法

本文采用基于Hybrid Task Cascade (HTC)的检测器作为核心实例分割框架,该框架基于配备CBFPN的CBSwin-Base骨干网络构建。整体架构设计为级联的检测阶段结构,骨干网络处理输入图像生成特征图,随后通过颈部模块进行细化。骨干网络具体采用CBSwin-Base架构,该架构为Swin Transformer的变体,专为高效特征提取而设计。特征随后输入至CBFPN(跨阶段特征金字塔网络),该网络通过整合网络不同层级的信息来增强多尺度特征表示。

如图所示,细化后的特征输入至RPN(区域提议网络)头,该头基于交叉熵损失与平滑L1损失生成区域提议,用于边界框回归。随后,这些提议由Hybrid Task Cascade RoI头进行处理,该头包含多个用于精细化检测的阶段。RoI头包含预测边界框坐标的Bbox头(使用交叉熵与平滑L1损失)以及生成分割掩码的Mask头。为提升掩码质量评估效果,在HTCMaskHead中引入Mask IoU头,使模型能够独立于分类置信度学习掩码质量,从而增强掩码质量与掩码得分之间的一致性。

训练过程始于使用AdamW的标准优化,初始学习率为0.0001。模型收敛后,应用SWA(随机权重平均)训练策略进行微调,以提升模型鲁棒性与泛化能力。该训练流水线旨在有效应对VIPriors挑战赛中的数据匮乏场景,该场景禁止使用预训练权重且训练数据有限。

实验

所提方法在VIPriors实例分割挑战赛测试集上进行评估,以配备soft NMS的HTC-CBSwinBase作为基线。系统性消融实验验证了各提出组件与优化策略的增量有效性,包括MaskIoU头、TS-DA域适应、测试时增强、阈值调整、SWA微调、推理裁剪与得分过滤。定性分析表明,这些修改持续提升了分割精度,其中域适应与权重平均带来最显著的性能提升。这些技术的累积优化结合最终模型集成,使系统在该挑战赛基准上取得极具竞争力的结果。

本文通过消融实验分析各组件对最终模型性能的贡献。结果表明,每项引入的组件(包括额外训练策略与推理修改)均逐步提升模型在测试集上的表现。添加MaskIoU头与TS-DA策略使性能较基线显著提升。推理裁剪与最大得分过滤进一步改善模型表现。调整掩码损失权重的模型集成取得最高性能。

开展消融实验以评估各项训练策略与推理修改对模型整体有效性的贡献。实验验证,引入MaskIoU头、TS-DA策略、推理裁剪与得分过滤等组件持续推动测试集性能逐步提升。最终,采用调整掩码损失权重的模型集成被证明为最有效的方法,证实每个新增元素均实质性强化了最终系统。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供