11日前

クロスモーダル表現学習によるゼロショット行動認識

Chung-Ching Lin, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu
クロスモーダル表現学習によるゼロショット行動認識
要約

本稿では、ゼロショット行動認識(ZSAR)を実現するため、動画データとテキストラベルを統合的に符号化する、クロスモーダルTransformerベースのフレームワークを提案する。本モデルは、視覚表現と視覚的意味的関連性をエンドツーエンドで同時に学習する、概念的に新しいパイプラインを採用している。このモデル設計により、視覚的表現と意味的表現が共有知識空間内で自然に学習されるメカニズムが実現され、学習された視覚埋め込みがより判別力があり、意味的に整合性が高い特性を持つことが促進される。ゼロショット推論においては、既知クラスと未知クラス間の意味的関連性を埋め込むシンプルな意味的転送スキームを考案した。これにより、未知クラスの視覚的プロトタイプを合成可能となり、視覚構造内の判別的特徴が保持・活用され、従来のゼロショット認識における情報損失、意味ギャップ、およびハブネス問題を緩和する効果が得られる。追加データセットでの事前学習を行わない厳格なゼロショット設定下においても、実験結果は本モデルがZSAR分野の最先端技術を顕著に上回ることを示しており、UCF101、HMDB51、ActivityNetのベンチマークデータセットにおいて、有望なトップ1精度を達成した。コードは公開予定である。

クロスモーダル表現学習によるゼロショット行動認識 | 最新論文 | HyperAI超神経