
要約
近年の研究では、セマンティックセグメンテーションにおいてグローバルな文脈情報を活用する手法が著しく進展しており、受容fieldの拡大やピラミッド型の特徴表現の集約が行われている。本論文では、グローバル文脈をさらに超え、共起特徴(co-occurrent features)を用いた細粒度表現の探索に取り組む。具体的には、与えられたターゲットに対して共起特徴の分布を予測する「共起特徴モデル(Co-occurrent Feature Model)」を導入する。共起特徴に含まれる意味的文脈を有効に活用するため、共起コンテキストと併せて共起特徴の確率を統合する「集約的共起特徴モジュール(Aggregated Co-occurrent Feature, ACF)モジュール」を構築した。ACFモジュールは、シーン全体にわたる共起コンテキスト情報を捉える細粒度かつ空間不変の表現を学習する。本手法は、FCN(Fully Convolutional Network)を用いた設定において、セグメンテーション性能を顕著に向上させ、Pascal Contextデータセットで54.0%のmIoU、Pascal VOC 2012で87.2%のmIoU、ADE20Kデータセットで44.89%のmIoUという優れた性能を達成した。論文公開後、ソースコードおよび完全なシステムは公開される予定である。