HyperAIHyperAI

Command Palette

Search for a command to run...

Captioning vidéo compressée précis et rapide

Yaojie Shen Xin Gu Kai Xu Heng Fan Longyin Wen Libo Zhang

Résumé

Les approches existantes de génération de légendes pour vidéos nécessitent généralement de prélever d'abord des cadres vidéo à partir d'une vidéo décodée, avant de procéder à un traitement ultérieur (par exemple, extraction de caractéristiques et/ou apprentissage d'un modèle de légendes). Dans ce pipeline, l'échantillonnage manuel des cadres peut faire perdre des informations clés présentes dans la vidéo, entraînant ainsi une dégradation des performances. En outre, les informations redondantes présentes dans les cadres échantillonnés peuvent entraîner une faible efficacité lors de l'inférence du modèle de génération de légendes. À cet égard, nous proposons une nouvelle perspective pour la génération de légendes vidéo, en travaillant directement dans le domaine compressé, offrant ainsi plusieurs avantages par rapport au pipeline traditionnel : 1) Contrairement aux images brutes issues de la vidéo décodée, la vidéo compressée — composée d'images I, de vecteurs de mouvement et de résidus — est hautement discriminante, ce qui permet d’exploiter l’intégralité de la vidéo pour l’apprentissage, sans échantillonnage manuel, grâce à une conception spécialisée du modèle ; 2) Le modèle de génération de légendes est plus efficace en phase d’inférence, car il traite une quantité réduite d’informations, moins redondantes. Nous proposons un modèle simple mais efficace, basé sur un transformateur end-to-end, conçu spécifiquement pour le domaine compressé, permettant d’apprendre directement à partir de la vidéo compressée. Nous démontrons que, même avec une architecture simple, notre méthode atteint des performances de pointe sur plusieurs benchmarks tout en étant presque deux fois plus rapide que les approches existantes. Le code est disponible à l’adresse suivante : https://github.com/acherstyx/CoCap.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp