6ヶ月前

概要

映画の異なるシーンを識別する能力は、映画の物語の流れを理解する上で極めて重要である。しかし、長時間にわたる映画の映像セグメントに対して論理的な推論を行う必要があるため、正確なシーン検出はしばしば困難である。これは、現在の大多数の動画認識モデルが短時間の動画解析を想定して設計されているのと対照的である。本研究では、長時間の映画動画における依存関係を効率的に捉えることで、正確な映画シーン検出を実現するための「状態空間トランスフォーマー（State-Space Transformer）」モデルを提案する。本モデルは、新規のS4Aブロックを基盤として構築されており、構造化状態空間系列（S4）と自己注意（A）層の長所を統合している。映画のショット（カメラ位置が変化しない連続した期間）に分割されたフレーム列を入力として、S4Aブロックはまず自己注意機構を用いてショット内の短距離依存関係を捉える。その後、S4Aブロック内の状態空間演算により、ショット間の長距離な情報（インターショット・キューサ）を統合する。複数回にわたりS4Aブロックを積層することで、エンド・ツー・エンドで学習可能な最終的なTranS4merモデルが構築される。提案するTranS4merは、MovieNet、BBC、OVSDの3つの映画シーン検出データセットにおいて、既存のすべての手法を上回る性能を達成しており、標準的なトランスフォーマーと比較して、2倍の高速化と3倍のGPUメモリ削減を実現している。本研究のコードおよびモデルは公開予定である。

ソースPDF