
要約
本研究では、マルチラベルゼロショット学習を対象に、共有マルチアテンションモデルを提案する。我々は、画像内に複数の既知ラベルおよび未知ラベルを認識するためのアテンション機構を設計することは、非自明な課題であると主張する。その理由は、未知ラベルの局所化に訓練信号が存在せず、数千もの可能性のあるラベルの中からわずかに存在する関連ラベルにのみ注目する必要があるためである。したがって、未知ラベルに対してアテンションを生成するのではなく、未知ラベルが事前に学習された「共有アテンション」の集合から適切なものを選択する仕組みを採用する。これらの共有アテンションは、我々が提案する新しい損失関数を通じて、ラベルに依存しない性質を持ち、関連領域(フォアグラウンド領域)にのみ注目するように訓練される。最終的に、選択されたアテンションに基づいてラベルを区別するための適合性関数(compatibility function)を学習する。さらに、アテンションが多様かつ関連する画像領域に注目するよう導くとともに、すべてのアテンション特徴を有効に活用するための3つの要素から構成される新しい損失関数を提案する。広範な実験の結果、本手法はNUS-WIDEおよび大規模なOpen Imagesデータセットにおいて、それぞれ2.9%および1.4%のF1スコア向上を達成し、既存の最先端手法を上回ることを示した。