CAR:セマンティックセグメンテーションのためのクラス認識正則化

最近のセグメンテーション手法として、OCRやCPNetなど、ピクセル特徴量に加えて「クラスレベル」の情報を活用する手法が、既存のネットワークモジュールの精度向上において顕著な成果を上げている。しかし、これらの手法では抽出されたクラスレベル情報が単にピクセル特徴量と連結されるにとどまり、ピクセル表現学習の向上に明示的に活用されていない。さらに、これらのアプローチは粗いマスク予測に基づいてソフトなクラス中心を学習するため、誤差の蓄積が生じやすいという課題がある。本研究では、クラスレベル情報をより効果的に活用することを目的とし、人間が他の物体と同居してもその物体自体を認識できるという知覚の特性に着想を得て、特徴学習中にクラス内分散を最小化し、クラス間距離を最大化する普遍的なクラス認識正則化(Class-Aware Regularization, CAR)手法を提案する。これにより、より明確なクラス表現を獲得することが可能となる。本手法では、3つの新たな損失関数を導入している。第1の損失関数は、各クラス内の表現をより凝縮するように促進する。第2の損失関数は、異なるクラス中心間の距離を直接最大化する。第3の損失関数は、クラス中心とピクセル間の距離をさらに拡大する。さらに、本手法ではクラス中心を誤差の生じやすい粗い予測からではなく、真値(ground truth)から直接生成するため、より正確な中心表現が得られる。本手法は、トレーニング段階において、OCRやCPNetを含む多数の既存セグメンテーションモデルに容易に適用可能であり、追加の推論オーバーヘッドを伴わず、大幅な精度向上が実現できる。複数のベンチマークデータセットにおける広範な実験およびアブレーションスタディの結果、提案手法CARはすべてのベースラインモデルの精度を最大で2.23% mIOU向上させ、優れた一般化能力を示した。完全なコードは、https://github.com/edwardyehuang/CAR にて公開されている。