8日前

効率的なキーフレーム選択に基づく動画キャプション生成フレームワーク

{Sivaji Bandyopadhyay, Thoudam Doren Singh, Salam Michael Singh, Loitongbam Sanayai Meetei, Alok Singh}
効率的なキーフレーム選択に基づく動画キャプション生成フレームワーク
要約

動画の説明は、コンピュータビジョンと自然言語生成の交差領域に位置するため、挑戦的でありながら魅力的なタスクである。注目(attention)に基づくモデルがこれまで最も優れた性能を示しているが、これらのモデルはすべて類似した処理手順に従っている。具体的には、動画をフレームのチャンクに分割するか、等間隔でフレームをサンプリングして視覚的表現をエンコードする。しかし、動画は類似したフレームの連続で構成されており、不均一な照明、遮蔽、運動エフェクトといった避けがたいノイズを含むため、フレームを等間隔でサンプリングするかチャンクに分割するというプロセスは、冗長な視覚情報のエンコードを引き起こし、追加の計算コストを要する。本論文では、動画説明のための境界に基づくキーフレーム選択手法を提案する。この手法により、視覚情報を効率的にエンコードし、動画の説明を生成する際に大きな性能低下を招かずに、コンパクトなキーフレームのサブセットを選択することが可能となる。提案手法は、動画1本あたり平均3~4フレームを使用し、MSVDおよびMSR-VTTという2つのベンチマークデータセットにおいて、英語およびヒンディ語の両言語で競争力ある性能を達成している。

効率的なキーフレーム選択に基づく動画キャプション生成フレームワーク | 最新論文 | HyperAI超神経