Modèle basé sur Vision Transformer pour décrire un ensemble d'images sous forme d'une histoire

La narration visuelle consiste à construire une histoire composée de plusieurs phrases à partir d’un ensemble d’images. L’inclusion adéquate de variations visuelles et d’informations contextuelles capturées dans les images d’entrée représente l’un des défis les plus importants dans ce domaine. En conséquence, les histoires générées à partir d’un ensemble d’images souffrent souvent d’un manque de cohérence, de pertinence et de relations sémantiques. Dans cet article, nous proposons un nouveau modèle basé sur le Vision Transformer (ViT) pour décrire un ensemble d’images sous forme d’histoire. La méthode proposée extrait les caractéristiques distinctes des images d’entrée à l’aide d’un Vision Transformer. Les images d’entrée sont d’abord divisées en patches de taille 16×16, puis regroupées sous forme de projection linéaire de patches aplatis. Cette transformation, passant d’une image unique à plusieurs patches, permet de capturer la variété visuelle des motifs d’entrée. Ces caractéristiques servent ensuite d’entrée à un modèle Bidirectional-LSTM, intégré dans l’encodeur de séquence, qui permet de capturer le contexte passé et futur de tous les patches d’image. Ensuite, un mécanisme d’attention est mis en œuvre afin d’améliorer la capacité discriminative des données alimentant le modèle linguistique, à savoir un Mogrifier-LSTM. La performance de notre modèle est évaluée sur le jeu de données Visual Story-Telling (VIST), et les résultats montrent que notre modèle surpasser les modèles d’état de l’art actuels.