HyperAIHyperAI

Command Palette

Search for a command to run...

ライブ動画のキャプション付け

Blanco-Fernández Eduardo ; Gutiérrez-Álvarez Carlos ; Nasri Nadia ; Maldonado-Bascón Saturnino ; López-Sastre Roberto J.

概要

動画の密なキャプショニングは、動画シーケンス内のイベントを検出および説明することを含みます。従来の手法はオフライン設定で動作し、分析のために全体の動画が利用可能であると仮定しています。これに対して、本研究では革新的なパラダイムを導入します:ライブビデオキャプショニング(LVC)。この手法では、キャプションをオンライン形式で動画ストリームに生成する必要があります。この変化により、イベントの部分的な観測の処理や行動の一時的な予測が必要となるなど、独自の課題が生じます。私たちはLVCという新しい問題を厳密に定義し、このオンライン状況に特化した革新的な評価指標を提案し、従来の指標に対するその優位性を示します。LVCの新たな複雑さに対応するために、変形可能なトランスフォーマーと時間フィルタリングを組み合わせた新しいモデルを提示します。これは効果的な動画ストリーム上のキャプショニングを可能にします。ActivityNet Captionsデータセットでの広範な実験により、提案されたアプローチが最先端のオフライン手法と比較してLVC設定において優れた性能を持つことが確認されました。さらなる研究を促進するために、私たちのモデルの結果と新しい指標が統合された評価ツールキットを以下から提供します: https://github.com/gramuah/lvc.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ライブ動画のキャプション付け | 記事 | HyperAI超神経