8ヶ月前

概要

最近、一段階のインスタンスセグメンテーション手法が、その速度と簡易性により注目を集めていますが、二段階手法に比べて精度ではまだ劣っています。本研究では、検出されたバウンディングボックス内の各インスタンスを異なるサブ領域に分けてマスク予測を行うことで、インスタンス固有の空間情報を保持する高速な一段階インスタンスセグメンテーション手法であるSipMaskを提案します。当手法の主な貢献は、バウンディングボックス内の各サブ領域に対して個別の空間係数を生成し、マスク予測の精度向上につながる新しい軽量空間保持（SP）モジュールです。これにより、空間的に隣接するインスタンスの正確な区画化も可能となります。さらに、マスク予測と物体検出の相関性を高めるために、マスクアライメントウェイティングロスと特徴アライメントスキームを導入しました。COCO test-devにおいて、当研究で提案したSipMaskは既存の一段階手法を上回りました。最先端の一貫型TensorMaskと比較すると、SipMaskは絶対値で1.0%（マスクAP）の改善を達成しつつ、4倍の処理速度向上を実現しています。リアルタイム性能に関しては、同様の設定下でYOLACTよりも絶対値で3.0%（マスクAP）高い性能を示し、Titan Xp上でほぼ同等の速度で動作します。また、SipMaskをリアルタイムビデオインスタンスセグメンテーションにも評価し、YouTube-VISデータセット上で有望な結果を得ました。ソースコードはhttps://github.com/JialeCao001/SipMask から入手可能です。

ソースPDF