
要約
マルチラベル画像分類(MLIC)は、画像に複数の可能なラベルを割り当てるという基本的かつ実用的なタスクであり、近年ではラベル間の相関関係をモデル化することでラベルの意味構造を解明し、画像の意味表現を学習する深層畳み込みニューラルネットワーク(CNN)に基づくアプローチが多数提案されてきた。本研究は、ラベル相関のモデリングと意味表現の学習の両面において、この研究方向をさらに進展させる。一方で、各ラベルの局所的意味構造に加え、複数のラベルが共有するグローバルな意味構造の探索を提案する。他方で、従来の手法は主にCNNの最終畳み込み層における意味表現の学習に焦点を当ててきたが、CNNの異なる層が異なるレベルまたはスケールの特徴を捉えており、識別能力も異なり得ることが知られている。したがって、複数の畳み込み層において意味表現を学習するアプローチを提案する。この目的のために、本研究はラベル相関をモデル化することでラベルの局所的およびグローバルな意味構造を発見し、アテンション機構を用いてラベルの意味情報を複数の層における意味表現学習をガイドする「マルチレイヤー意味表現ネットワーク(MSRN)」を設計した。VOC 2007、COCO、NUS-WIDE、Apparelの4つのベンチマークデータセットにおける広範な実験により、提案手法MSRNが最先端モデルと比較して競争力ある性能を示したことが確認された。