2ヶ月前
CCNet: クリス-クロス注意機構を用いたセマンティックセグメンテーション
Zilong Huang; Xinggang Wang; Yunchao Wei; Lichao Huang; Humphrey Shi; Wenyu Liu; Thomas S. Huang

要約
視覚理解の問題において、コンテキスト情報は非常に重要です。本稿では、フル画像のコンテキスト情報を効果的かつ効率的に取得するためのCriss-Cross Network(CCNet)を提案します。具体的には、各ピクセルに対して新しい交差注意モジュールがその交差経路上にあるすべてのピクセルのコンテキスト情報を収集します。さらに再帰的な操作を行うことで、各ピクセルは最終的にフル画像の依存関係を捉えることができます。また、カテゴリ一貫性損失を提案し、交差注意モジュールがより識別力のある特徴を生成することを促進します。全体として、CCNetには以下の長所があります:1) GPUメモリに優しい設計です。非局所ブロックと比較して、提案された再帰的な交差注意モジュールはGPUメモリ使用量を11倍以上削減できます。2) 高い計算効率です。再帰的な交差注意により、非局所ブロックのFLOPs(演算回数)を約85%削減できます。3) 最新の最先端性能です。Cityscapes、ADE20K、人間パーシングベンチマークLIP、インスタンスセグメンテーションベンチマークCOCO、ビデオセグメンテーションベンチマークCamVidなどのセマンティックセグメンテーションベンチマークで広範な実験を行いました。特に、CCNetはCityscapesテストセットでmIoUスコア81.9%、ADE20K検証セットで45.76%、LIP検証セットで55.47%を達成しており、これらは新しい最先端結果となっています。ソースコードは\url{https://github.com/speedinghzl/CCNet}から入手可能です。