
要約
意味分割(semantic segmentation)の研究は最近急速な進展を遂げていますが、多くの先進的な手法はオブジェクトのインスタンスを特定することができません。本論文では、インスタンス認識可能な意味分割のためにマルチタスクネットワークカスケード(Multi-task Network Cascades)を提案します。当モデルは、インスタンスの区別、マスクの推定、およびオブジェクトの分類を行う3つのネットワークから構成されています。これらのネットワークはカスケード構造を形成し、畳み込み特徴量を共有するように設計されています。我々はこの因果関係のあるカスケード構造の非自明なエンドツーエンド学習アルゴリズムを開発しました。当方針は単純で一連の学習フレームワークであり、より多くの段階を持つカスケードにも一般化できます。PASCAL VOCにおいて最先端のインスタンス認識可能な意味分割精度を達成しています。さらに、VGG-16を使用して画像テストにかかる時間はわずか360ミリ秒であり、この難問に対する従来システムよりも2桁速いです。副産物として、当手法は競合するFast/Faster R-CNNシステムを超える優れた物体検出結果も得ています。本論文中で説明されている手法は、MS COCO 2015セグメンテーションコンペティションへの提出の基礎となっています。当該コンペティションにおいて我々は1位を獲得しました。