HyperAIHyperAI
il y a 2 mois

Encodeur Hiérarchique de Scène Photographique pour le Récit d'Album

Bairui Wang; Lin Ma; Wei Zhang; Wenhao Jiang; Feng Zhang
Encodeur Hiérarchique de Scène Photographique pour le Récit d'Album
Résumé

Dans cet article, nous proposons un nouveau modèle doté d'un encodeur de scènes photographiques hiérarchique et d'un reconstructeur pour la tâche de narration d'albums. L'encodeur de scènes photographiques comprend deux sous-encodeurs, à savoir l'encodeur de photos et l'encodeur de scènes, qui sont empilés ensemble et fonctionnent de manière hiérarchique afin d'exploiter pleinement les informations structurales des photos au sein d'un album. Plus précisément, l'encodeur de photos génère une représentation sémantique pour chaque photo tout en exploitant les relations temporelles entre elles. L'encodeur de scènes, en s'appuyant sur les représentations de photos obtenues, est chargé de détecter les changements de scène et de générer des représentations de scènes. Ensuite, le décodeur résume dynamiquement et attentivement les représentations encodées des photos et des scènes pour générer une séquence de représentations d'album, sur la base de laquelle une histoire composée de plusieurs phrases cohérentes est générée. Pour extraire pleinement les informations sémantiques utiles d'un album, un reconstructeur est utilisé pour reproduire les représentations résumées de l'album à partir des états cachés du décodeur. Le modèle proposé peut être formé selon une approche bout-à-bout (end-to-end), ce qui entraîne une amélioration des performances par rapport aux méthodes actuelles sur le jeu de données public VIST (Visual Storytelling). Des études ablatives montrent en outre l'efficacité du nouvel encodeur photo-scène hiérarchique et du reconstructeur proposés.

Encodeur Hiérarchique de Scène Photographique pour le Récit d'Album | Articles de recherche récents | HyperAI