2ヶ月前
BoxInst: ボックス注釈を使用した高性能インスタンスセグメンテーション
Tian, Zhi ; Shen, Chunhua ; Wang, Xinlong ; Chen, Hao

要約
私たちは、訓練にバウンディングボックス注釈のみを使用してマスクレベルのインスタンスセグメンテーションを達成する高性能な手法を提案します。この設定は既存の文献で研究されていますが、ここでは単純な設計により著しく高い性能を示すことを示しています(例えば、Hsuら (2019) で報告されたCOCOデータセット上の従来の最高のマスクAP 21.1% を 31.6% に大幅に改善しました)。私たちの中心的なアイデアは、インスタンスセグメンテーションにおけるマスク学習の損失関数を再設計することです。セグメンテーションネットワーク自体には変更を加えずに、新しい損失関数によってマスクの訓練をマスク注釈に依存せずに監督することが可能になります。これは、以下の2つの損失項によって実現されます:1) 地上真ボックスの射影と予測されたマスク間の不一致を最小化する代理項;2) 近接する色が似ているピクセルが同じカテゴリラベルを持つ可能性が高いという事前知識を利用するペアワイズ損失。実験結果は、再設計されたマスク損失関数が箱注釈のみを使用して驚くほど高品質なインスタンスマスクを得られることを示しています。例えば、任意のマスク注釈を使用せずにResNet-101バックボーンと3倍の訓練スケジュールを使用することで、COCOテスト開発分割において33.2% のマスクAPを達成しました(完全教師ありの場合では39.1%)。COCOおよびPascal VOCでの優れた実験結果は、私たちの手法が弱教師ありと完全教師ありのインスタンスセグメンテーション間の性能差を著しく縮めていることを示しています。コードは以下から入手可能です: https://git.io/AdelaiDet