2ヶ月前

Transformerを基にした二重関係グラフによる多ラベル画像認識

Zhao, Jiawei ; Yan, Ke ; Zhao, Yifan ; Guo, Xiaowei ; Huang, Feiyue ; Li, Jia
Transformerを基にした二重関係グラフによる多ラベル画像認識
要約

一枚の画像における複数の物体を同時に認識することは、認識分野において様々な物体スケール、一貫性のない外観、およびクラス間の混乱した関係性など、複数の課題を含む難易度の高いタスクであり続けています。最近の研究では、主に統計的なラベル共起と言語的な単語埋め込みを使用して不明確な意味論を強化することに取り組んでいます。これらの研究とは異なり、本論文では新しいトランスフォーマーに基づく二重関係学習フレームワークを提案します。このフレームワークは、構造的関係グラフと意味的関係グラフという相関関係の2つの側面を探ることで補完的な関係性を構築します。構造的関係グラフは、クロススケールトランスフォーマーに基づくアーキテクチャを開発することで、物体コンテキストからの長距離相関を捉えることを目指しています。意味的グラフは、明示的な意味論制約を使用して画像オブジェクトの意味論的意思を動的にモデル化します。さらに、学習された構造的関係性を意味的グラフに組み込むことで、堅牢な表現のために結合関係グラフを構築しています。これらの2つの効果的な関係グラフの協調学習により、当手法はMS-COCOおよびVOC 2007データセットという2つの人気のあるマルチラベル認識ベンチマークで新たな最先端の成果を達成しました。