
要約
ゼロショット学習(ZSL)は、各カテゴリに対して注釈付きサンプルを必要とする従来のモデル訓練要件を回避することで、視覚認識のスケーラビリティを約束しています。これは、補助データ上で低レベル特徴量とラベル空間の意味論的説明を接続するマッピング(視覚-意味論的マッピング)を確立することによって達成されます。学習されたマッピングを再利用してターゲット動画を埋め込み空間に投影することで、新しいクラスが最近傍推論によって認識されるようになります。しかし、既存のZSL手法は、補助クラスとターゲットクラスが異なるにもかかわらず同じマッピングを使用すると仮定することにより、補助-ターゲットドメインシフトに内在的に苦しんでいます。これにより、ターゲットデータに対するZSL認識の汎化精度が低下します。本研究では、視覚-意味論的マッピングの汎化性能を向上させるとともに、ターゲットクラスに関連性のある補助データを優先する動的なデータ再重み付け方法を用いて、モデル中心およびデータ中心の両方からこのドメインシフトに対するZSLの汎化能力を改善します。具体的には:(1) 低次元多様体上に意味論的マッピングパラメータが存在することを制約として導入したマルチタスク視覚-意味論的マッピングにより汎化性能を向上させます。(2) ターゲットドメインとの関連性に基づいて重み付けされた追加インスタンスで補助データプールを拡大する優先度付きデータ拡張を探求します。提案された新モデルは、困難なゼロショットアクション認識問題に適用され、既存のZSLモデルよりも優れた点を示すために使用されました。