11日前
ラベルグラフの重畳を用いたマルチラベル分類
Ya Wang, Dongliang He, Fu Li, Xiang Long, Zhichao Zhou, Jinwen Ma, Shilei Wen

要約
画像や動画には常に複数の物体や動作が含まれる。多ラベル認識は、ディープラーニング技術の急速な発展に伴い、非常に高い性能を達成することが確認されている。近年、グラフ畳み込みネットワーク(GCN)が多ラベル認識の性能向上に活用されている。しかし、ラベル相関のモデリングにおいて最適な手法は何か、また特徴学習においてラベルシステムの知識をどのように活用できるかについては、まだ明確でない。本論文では、従来のGCN+CNNフレームワークを多ラベル認識に適用する際の性能向上を、以下の2つの観点から提案する。第一に、ラベルの統計的同時出現情報から構築したラベルグラフを、ラベルに関する知識事前情報から得られるグラフに重ね合わせることで、ラベル相関をモデル化し、最終的に得られた重ね合わせグラフ上でマルチレイヤーのグラフ畳み込みを適用してラベル埋め込みの抽象化を実現する。第二に、ラベルシステム全体の埋め込みを活用して、より優れた表現学習を実現することを提案する。具体的には、GCNとCNNの間において浅層、中層、深層の各層に横方向の接続を導入し、バックボーンとなるCNNにラベルシステムの情報を注入することで、特徴学習プロセスにおけるラベル意識(label-awareness)を高める。MS-COCOおよびCharadesデータセットを用いた広範な実験の結果、本手法が認識性能を大幅に向上させ、新たな最先端の性能を達成することが示された。