Captioning vidéo compressée précis et rapide

Les approches existantes de génération de légendes pour vidéos nécessitent généralement de prélever d'abord des cadres vidéo à partir d'une vidéo décodée, avant de procéder à un traitement ultérieur (par exemple, extraction de caractéristiques et/ou apprentissage d'un modèle de légendes). Dans ce pipeline, l'échantillonnage manuel des cadres peut faire perdre des informations clés présentes dans la vidéo, entraînant ainsi une dégradation des performances. En outre, les informations redondantes présentes dans les cadres échantillonnés peuvent entraîner une faible efficacité lors de l'inférence du modèle de génération de légendes. À cet égard, nous proposons une nouvelle perspective pour la génération de légendes vidéo, en travaillant directement dans le domaine compressé, offrant ainsi plusieurs avantages par rapport au pipeline traditionnel : 1) Contrairement aux images brutes issues de la vidéo décodée, la vidéo compressée — composée d'images I, de vecteurs de mouvement et de résidus — est hautement discriminante, ce qui permet d’exploiter l’intégralité de la vidéo pour l’apprentissage, sans échantillonnage manuel, grâce à une conception spécialisée du modèle ; 2) Le modèle de génération de légendes est plus efficace en phase d’inférence, car il traite une quantité réduite d’informations, moins redondantes. Nous proposons un modèle simple mais efficace, basé sur un transformateur end-to-end, conçu spécifiquement pour le domaine compressé, permettant d’apprendre directement à partir de la vidéo compressée. Nous démontrons que, même avec une architecture simple, notre méthode atteint des performances de pointe sur plusieurs benchmarks tout en étant presque deux fois plus rapide que les approches existantes. Le code est disponible à l’adresse suivante : https://github.com/acherstyx/CoCap.