部分ラベル付き多ラベル画像認識のための双方向意味意識表現ブレンド

現状のマルチラベル画像認識(MLR)アルゴリズムは、完全なラベルを持つ大規模データセットに大きく依存しており、このような大規模データセットの収集は非常に時間と労力を要する問題となっています。部分的なラベル(MLR-PL)を使用してマルチラベル画像認識モデルを訓練することは、一部のラベルのみが知られている一方で他のラベルが未知である各画像に対して有効な代替手段です。しかし、現在のMLP-PLアルゴリズムは、事前学習された画像類似性モデルや反復的に更新される画像分類モデルに依存して未知のラベルに対する疑似ラベルを生成しています。そのため、一定量のアノテーションが必要となり、特に既知のラベル割合が低い場合に明显的な性能低下を避けられないという課題があります。このジレンマを解決するために、我々は異なる画像間でインスタンス視点とプロトタイプ視点からそれぞれ多粒度カテゴリ固有の意味表現を融合する双方向視点意味認識表現ブレンド(DSRB)手法を提案します。具体的には、インスタンス視点表現ブレンド(IPRB)モジュールを設計し、ある画像内の既知ラベルの表現と別の画像内の対応する未知ラベルの表現を融合することで、これらの未知ラベルを補完します。また、プロトタイプ視点表現ブレンド(PPRB)モジュールを導入し、各カテゴリに対してより安定した表現プロトタイプを学習し、位置感度のある方法で未知ラベルの表現と対応するラベルのプロトタイプを融合させることで、これらの未知ラベルを補完します。MS-COCO, Visual Genome, およびPascal VOC 2007データセットでの広範な実験結果から、提案されたDSRB手法はすべての既知ラベル割合設定において現行の最先端アルゴリズムよりも一貫して優れた性能を示していることが確認されました。