HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle basé sur Vision Transformer pour décrire un ensemble d'images sous forme d'une histoire

Zainy M. Malakan Ghulam Mubashar Hassan Ajmal Mian

Résumé

La narration visuelle consiste à construire une histoire composée de plusieurs phrases à partir d’un ensemble d’images. L’inclusion adéquate de variations visuelles et d’informations contextuelles capturées dans les images d’entrée représente l’un des défis les plus importants dans ce domaine. En conséquence, les histoires générées à partir d’un ensemble d’images souffrent souvent d’un manque de cohérence, de pertinence et de relations sémantiques. Dans cet article, nous proposons un nouveau modèle basé sur le Vision Transformer (ViT) pour décrire un ensemble d’images sous forme d’histoire. La méthode proposée extrait les caractéristiques distinctes des images d’entrée à l’aide d’un Vision Transformer. Les images d’entrée sont d’abord divisées en patches de taille 16×16, puis regroupées sous forme de projection linéaire de patches aplatis. Cette transformation, passant d’une image unique à plusieurs patches, permet de capturer la variété visuelle des motifs d’entrée. Ces caractéristiques servent ensuite d’entrée à un modèle Bidirectional-LSTM, intégré dans l’encodeur de séquence, qui permet de capturer le contexte passé et futur de tous les patches d’image. Ensuite, un mécanisme d’attention est mis en œuvre afin d’améliorer la capacité discriminative des données alimentant le modèle linguistique, à savoir un Mogrifier-LSTM. La performance de notre modèle est évaluée sur le jeu de données Visual Story-Telling (VIST), et les résultats montrent que notre modèle surpasser les modèles d’état de l’art actuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèle basé sur Vision Transformer pour décrire un ensemble d'images sous forme d'une histoire | Articles | HyperAI