17日前
セグメンテーションTransformer:セマンティックセグメンテーションのためのオブジェクト・コンテキスト表現
Yuhui Yuan, Xiaokang Chen, Xilin Chen, Jingdong Wang

要約
本稿では、文脈の集約戦略に注目して、セマンティックセグメンテーション問題に取り組む。我々の動機は、あるピクセルのラベルがそのピクセルが属するオブジェクトのカテゴリであるという点にある。そこで、単純ながら効果的なアプローチである「オブジェクト文脈表現(object-contextual representations)」を提案する。この手法は、対応するオブジェクトクラスの表現を利用して、各ピクセルを特徴づけるものである。まず、真のセグメンテーションラベルの教師信号のもとでオブジェクト領域を学習する。次に、オブジェクト領域内のピクセル表現を統合することにより、オブジェクト領域の表現を計算する。最後に、各ピクセルと各オブジェクト領域との関係性を、表現の類似度として計算し、そのピクセルの表現を、各オブジェクト領域表現の重み付き統合(各オブジェクト領域との関係性に基づく)であるオブジェクト文脈表現で拡張する。実験的に、提案手法がCityscapes、ADE20K、LIP、PASCAL-Context、COCO-Stuffという多様な困難なセマンティックセグメンテーションベンチマークにおいて、競争力のある性能を達成することを示した。特に、提出した手法「HRNet + OCR + SegFix」は、提出時点でのCityscapesリーダーボードで1位を獲得した。コードは以下のURLで公開されている:https://git.io/openseg および https://git.io/HRNet.OCR。さらに、Transformerエンコーダ・デコーダフレームワークを用いて、オブジェクト文脈表現スキームを再定式化した。詳細は第3.3節に示す。