
アクションクラスの増加は、動画理解における新たな課題を生み出しており、ゼロショットアクション認識(ZSAR)はその対応策として注目されている分野である。ZSARの目的は、学習例を用いずに、セマンティック表現を活用して既知のアクションと未知のアクションの間に橋渡しを行うことで、未学習のターゲットアクションを認識することにある。しかし、アクションの複雑さと多様性の高さから、アクションクラスを適切にセマンティックに表現し、既知データから未知のアクションへ知識を転移することは依然として困難である。本研究では、人間の記憶技術である「詳細復習(Elaborative Rehearsal, ER)」に着想を得たER強化型ZSARモデルを提案する。詳細復習とは、新しい概念を既存の概念と関連づけて詳細に構成し、理解を深める手法である。具体的には、各アクションクラスを、クラス名よりも判別性が高く、手動で定義された属性よりもコストが低い「詳細記述(Elaborative Description, ED)」文として拡張する。さらに、クラスの意味情報を動画と直接一致させるだけでなく、動画内のオブジェクトを「詳細概念(Elaborative Concept, EC)」として導入することで、動画の意味表現を強化し、既知アクションから未知アクションへの汎化性能を向上させる。本研究で提案するER強化型ZSARモデルは、既存の3つのベンチマークにおいて最先端の性能を達成した。さらに、現在のベンチマークに存在する制約を克服するため、Kineticsデータセット上で新たなZSAR評価プロトコルを提案し、より現実的な設定においてZSARの性能が少しだけ学習(few-shot learning)ベースラインと同等に達することを初めて示した。本研究のコードおよび収集したEDデータは、https://github.com/DeLightCMU/ElaborativeRehearsal にて公開する予定である。