11日前

RUC_AIM3 チームによる ActivityNet 2020 タスク2における技術報告:密度型ビデオキャプション向け順次イベント検出の探求

Yuqing Song, Shizhe Chen, Yida Zhao, Qin Jin
RUC_AIM3 チームによる ActivityNet 2020 タスク2における技術報告:密度型ビデオキャプション向け順次イベント検出の探求
要約

トリムされていない動画における意味のあるイベントを検出することは、密度高い動画キャプション(dense video captioning)において不可欠である。本研究では、イベント系列の生成を目的とした新規かつシンプルなモデルを提案し、動画内におけるイベント系列の時間的関係性を探索する。提案モデルは、非効率な二段階の候補生成プロセスを省き、一方通行の処理で双方向時間依存性を考慮してイベント境界を直接生成する。実験結果から、提案モデルは少数の候補数でより正確かつ多様なイベントを生成できることを示した。イベントキャプションの生成に関しては、従来の研究で採用したインラインイベントキャプションモデルをパイプラインシステムに統合した。全体のシステムは、チャレンジテストセットにおいて9.894のMETEORスコアを達成し、密度高い動画イベントキャプションタスクにおいて最先端の性能を実現した。

RUC_AIM3 チームによる ActivityNet 2020 タスク2における技術報告:密度型ビデオキャプション向け順次イベント検出の探求 | 最新論文 | HyperAI超神経