HyperAIHyperAI
il y a 2 mois

Sous-titrage en direct de la vidéo

Blanco-Fernández, Eduardo ; Gutiérrez-Álvarez, Carlos ; Nasri, Nadia ; Maldonado-Bascón, Saturnino ; López-Sastre, Roberto J.
Sous-titrage en direct de la vidéo
Résumé

Le dense video captioning consiste à détecter et décrire les événements au sein de séquences vidéo. Les méthodes traditionnelles fonctionnent dans un cadre hors ligne, supposant que l'ensemble de la vidéo est disponible pour l'analyse. En revanche, dans ce travail, nous introduisons un paradigme novateur : le Live Video Captioning (LVC), où les légendes doivent être générées pour des flux vidéo en temps réel. Ce changement apporte des défis uniques, notamment le traitement d'observations partielles des événements et la nécessité d'une anticipation temporelle des actions. Nous définissons formellement le problème nouveau de LVC et proposons des métriques d'évaluation innovantes spécifiquement conçues pour ce scénario en ligne, démontrant leurs avantages par rapport aux métriques traditionnelles. Pour répondre aux complexités nouvelles du LVC, nous présentons un modèle qui combine des transformateurs déformables avec un filtrage temporel, permettant une légendisation efficace sur des flux vidéo. Des expériences approfondies sur l'ensemble de données ActivityNet Captions valident notre approche proposée, mettant en évidence ses performances supérieures dans le cadre du LVC par rapport aux méthodes hors ligne de pointe. Afin de favoriser des recherches ultérieures, nous fournissons les résultats de notre modèle et un kit d'outils d'évaluation intégrant les nouvelles métriques à l'adresse suivante : https://github.com/gramuah/lvc.

Sous-titrage en direct de la vidéo | Articles de recherche récents | HyperAI