il y a 6 mois

Résumé

La génération de légendes grammaticalement et sémantiquement correctes dans le cadre de la captioning vidéo constitue une tâche difficile. Les légendes produites par les méthodes existantes sont soit générées mot à mot, sans respecter la structure grammaticale, soit elles omettent des informations clés présentes dans les vidéos d’entrée. Pour résoudre ces problèmes, nous proposons un nouveau réseau de fusion global-local, comprenant un bloc de fusion global-local (GLFB), qui encode et fusionne les caractéristiques provenant de différents composants morphosyntaxiques (POS) avec les caractéristiques visuelles-spatiales. Nous introduisons de nouvelles combinaisons de composants POS — « déterminant + sujet », « verbe auxiliaire », « verbe », et « déterminant + complément » — afin d’assister la supervision des blocs POS correspondants : Det + Sujet, Verbe auxiliaire, Verbe et Det + Complément. Le réseau de fusion global-local innovant, combiné aux blocs POS, permet une meilleure alignement entre les caractéristiques visuelles et la description linguistique, conduisant à la génération de légendes grammaticalement et sémantiquement correctes. Des expérimentations qualitatives et quantitatives étendues sur les jeux de données standard MSVD et MSRVTT démontrent que l’approche proposée génère des légendes plus grammaticalement et sémantiquement correctes que les méthodes existantes, atteignant ainsi un nouveau record d’état de l’art. Des études d’ablation sur les blocs POS et le GLFB mettent en évidence l’impact significatif de chacune de ces contributions sur les performances de la méthode.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SEM-POS : Rédaction de légendes vidéo grammaticalement et sémantiquement correctes

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SEM-POS : Rédaction de légendes vidéo grammaticalement et sémantiquement correctes

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SEM-POS : Rédaction de légendes vidéo grammaticalement et sémantiquement correctes

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters