2ヶ月前

ライブ動画のキャプション付け

Blanco-Fernández, Eduardo ; Gutiérrez-Álvarez, Carlos ; Nasri, Nadia ; Maldonado-Bascón, Saturnino ; López-Sastre, Roberto J.
ライブ動画のキャプション付け
要約

動画の密なキャプショニングは、動画シーケンス内のイベントを検出および説明することを含みます。従来の手法はオフライン設定で動作し、分析のために全体の動画が利用可能であると仮定しています。これに対して、本研究では革新的なパラダイムを導入します:ライブビデオキャプショニング(LVC)。この手法では、キャプションをオンライン形式で動画ストリームに生成する必要があります。この変化により、イベントの部分的な観測の処理や行動の一時的な予測が必要となるなど、独自の課題が生じます。私たちはLVCという新しい問題を厳密に定義し、このオンライン状況に特化した革新的な評価指標を提案し、従来の指標に対するその優位性を示します。LVCの新たな複雑さに対応するために、変形可能なトランスフォーマーと時間フィルタリングを組み合わせた新しいモデルを提示します。これは効果的な動画ストリーム上のキャプショニングを可能にします。ActivityNet Captionsデータセットでの広範な実験により、提案されたアプローチが最先端のオフライン手法と比較してLVC設定において優れた性能を持つことが確認されました。さらなる研究を促進するために、私たちのモデルの結果と新しい指標が統合された評価ツールキットを以下から提供します: https://github.com/gramuah/lvc.

ライブ動画のキャプション付け | 最新論文 | HyperAI超神経