2ヶ月前
HERMES: 時間的整合性を持つエピソードと意味論による長期理解
Gueter Josmy Faure; Jia-Fong Yeh; Min-Hung Chen; Hung-Ting Su; Shang-Hong Lai; Winston H. Hsu

要約
既存の研究では、長尺ビデオを延長された短尺ビデオとして扱うことが多く、これによりいくつかの制限が生じています。具体的には、長期依存関係の不十分な捉え方、冗長情報の非効率的な処理、および高次セマンティック概念の抽出失敗です。これらの問題に対処するため、本稿では人間の認知により正確に反映した新しいアプローチを提案します。本論文で紹介する HERMES(エピソードとセマンティクスによる時間的整合性のある長尺理解モデル)は、エピソード記憶の蓄積をシミュレートしてアクションシーケンスを捉え、ビデオ全体に分散しているセマンティック知識で強化するモデルです。本研究は2つの重要な貢献を行います。第一に、微視的から準巨視的レベルまでの重要な表現を効率的に集約するエピソード圧縮器(Episodic COmpressor: ECO)を開発しました。これにより長期依存関係の課題を克服しています。第二に、広範なコンテキストに焦点を当ててセマンティック情報を加えることで集約された表現を強化し、特徴次元数を大幅に削減しながら関連する巨視的情報を保つセマンティックスリトリーバー(Semantics ReTRiever: SeTR)を提案しました。これにより冗長性と高次概念抽出不足の問題に対処しています。多数の実験結果から、HERMES はゼロショット設定および完全教師あり設定において複数の長尺ビデオ理解ベンチマークで最先端の性能を達成することが示されています。