
要約
最近の研究では、多ラベル画像認識の認識精度を向上させるために、グラフ畳み込みネットワーク(GCN)を用いてラベル依存関係をモデル化することがよく行われています。しかし、学習データのラベル共起確率を数えることでグラフを構築すると、特にテスト画像に偶発的に共起するオブジェクトが存在する場合、モデルの汎化性能が低下する可能性があります。本研究の目的は、このようなバイアスを排除し、学習された特徴量の堅牢性を向上させることです。この目的達成のために、我々は各画像に対して特定のグラフを動的に生成するための注意駆動型動的グラフ畳み込みネットワーク(ADD-GCN)を提案します。ADD-GCNは、意味的注意モジュール(Semantic Attention Module: SAM)によって生成されるコンテンツ感知型カテゴリ表現間の関係をモデル化するために、動的グラフ畳み込みネットワーク(Dynamic Graph Convolutional Network: D-GCN)を採用しています。公開されている多ラベルベンチマークデータセットでの広範な実験により、当手法の有効性が示されており、MS-COCO, VOC2007, VOC2012においてそれぞれmAP(mean Average Precision)が85.2%, 96.0%, 95.5%と、現行の最先端手法よりも明確に優れた結果を得ています。すべてのコードは https://github.com/Yejin0111/ADD-GCN で入手可能です。