13日前

エンドツーエンド型の並列デコードを用いた高密度動画キャプション生成

Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, Ping Luo
エンドツーエンド型の並列デコードを用いた高密度動画キャプション生成
要約

密な動画キャプション生成(Dense Video Captioning)は、動画から複数の関連するキャプションおよびその時間的位置を抽出することを目的としています。従来の手法は、多数の手作業で設計されたコンポーネントに大きく依存する「局所化→記述」という複雑な二段階アプローチを採用していました。本論文では、トランスフォーマー・デコーダの上部に新たに提案する「イベントカウンタ」を積層することで、動画全体のコンテキスト理解に基づき、動画を適切なイベント単位に正確に分割する、並列デコーディングを用いたシンプルかつ効果的なエンド・ツー・エンド型フレームワーク(PDVC: Parallel Decoding for Dense Video Captioning)を提案します。このアプローチにより、予測されたキャプションの一貫性と可読性が顕著に向上します。既存手法と比較して、PDVCには以下の魅力的な利点があります:(1)冗長性除去のためのヒューリスティックな非最大抑制(non-maximum suppression)や再帰的なイベントシーケンス選択ネットワークに依存せず、適切なサイズのイベント集合を直接出力可能;(2)二段階アプローチとは異なり、イベントクエリの強化表現を局所化ヘッドとキャプションヘッドに並列で入力することで、両タスクが最適化プロセスを通じて深く相互に連携・補完される構造を実現;(3)追加の複雑な構成要素を用いずに、ActivityNet CaptionsおよびYouCook2における広範な実験結果から、最先端の二段階手法と同等の局所化精度を維持しつつ、優れたキャプション生成結果を達成できることを示しました。コードは https://github.com/ttengwang/PDVC で公開されています。

エンドツーエンド型の並列デコードを用いた高密度動画キャプション生成 | 最新論文 | HyperAI超神経