11日前

ゼロショット動画分類のためのアライメント・ユニフォーミティに配慮した表現学習

Shi Pu, Kaili Zhao, Mao Zheng
ゼロショット動画分類のためのアライメント・ユニフォーミティに配慮した表現学習
要約

多くの既存手法は、既存クラス内の視覚的・意味的表現を一致させるアプローチによりゼロショット動画分類に取り組んでおり、これにより未観測クラスへの一般化能力が制限される。モデルの一般化性能を向上させるために、本論文では、既存クラスおよび未観測クラスの両方において表現の一致性(alignment)と一様性(uniformity)を保持するエンドツーエンドフレームワークを提案する。具体的には、視覚的・意味的特徴の一致(alignment)を同時に促進するとともに、学習された特徴が一様に分布するよう誘導する教師付き対照損失(supervised contrastive loss)を定式化する。従来の手法が一致性のみを考慮するのに対し、本研究では一様性を導入することで、既存特徴の最大限の情報量を保持し、未観測の特徴が観測済みデータの周辺に分布する確率を向上させる。さらに、既存クラスの特徴を補間・外挿する手法として、クラス生成器(class generator)を提案し、未観測クラスの特徴を合成する。また、これらの2つの性質を定量的に評価するため、近接性(closeness)と分散性(dispersion)という2つの新たな指標を導入し、モデルの一般化能力を測る新たな尺度として活用する。実験の結果、本手法はUCF101においてSOTA(最良手法)に対して28.1%の相対的改善、HMDB51では27.0%の相対的改善を達成し、顕著な性能向上を示した。コードは公開されている。

ゼロショット動画分類のためのアライメント・ユニフォーミティに配慮した表現学習 | 最新論文 | HyperAI超神経