3ヶ月前

Mask Frozen-DETR:1つのGPUで実現する高品質なインスタンスセグメンテーション

Zhanhao Liang, Yuhui Yuan
Mask Frozen-DETR:1つのGPUで実現する高品質なインスタンスセグメンテーション
要約

本稿では、長時間の学習と高コストなGPU要件を伴う高度なフレームワークの構築に依存する現行の多くのアプローチとは異なり、最小限の学習時間およびGPUリソースで強力なインスタンスセグメンテーションモデルを構築する方法を検討する。これを達成するため、任意の既存のDETRベースの物体検出モデルを強力なインスタンスセグメンテーションモデルに変換できる、シンプルかつ汎用的なフレームワーク「Mask Frozen-DETR」を提案する。本手法は、固定されたDETRベースの物体検出器が生成するバウンディングボックス内にインスタンスマスクを予測する軽量なマスクネットワークを追加で学習するのみで実現される。顕著な点として、COCO test-devスプリットにおいて、最先端のインスタンスセグメンテーション手法であるMask DINO(54.7%)を上回る性能(55.3%)を達成しつつ、学習速度は10倍以上高速である。さらに、本研究のすべての実験は、メモリ16GBのTesla V100 GPU一台のみで実行可能であり、提案フレームワークの極めて高い効率性を示している。