HyperAIHyperAI
il y a 12 jours

Regardez plus profondément, voyez plus riches : Résumé par paragraphe d’image sensible à la profondeur

{Hongzhi Yin, Zi Huang, Yang Li, Yadan Luo, Ziwei Wang}
Résumé

Face à la disponibilité généralisée des systèmes de génération de légendes d’images au niveau de la phrase, la génération automatique de paragraphes d’images reste encore peu explorée. Décrire une image à l’aide d’un paragraphe complet suppose une organisation ordonnée, cohérente et diversifiée des phrases, ce qui implique inévitablement une complexité supérieure à celle d’une simple phrase. Les méthodes existantes de génération de légendes paragraphe pour images produisent une suite de phrases visant à représenter les objets et régions d’intérêt, où les descriptions sont essentiellement générées en alimentant des fragments d’image contenant ces objets dans des modèles conventionnels de génération de légendes mono-phrase. Cette approche se heurte à des difficultés pour garantir une hiérarchie spatiale cohérente et éviter les chevauchements entre objets. Dans cet article, nous proposons un modèle d’attention conscient de la profondeur (Depth-aware Attention Model, DAM) pour générer des paragraphes de légendes d’images. La profondeur des différentes régions de l’image est d’abord estimée afin de distinguer les objets selon leurs positions spatiales, ce qui permet ensuite de guider le décodeur linguistique dans la mise en évidence des relations spatiales entre objets. Ce modèle construit le paragraphe de manière logique et cohérente. Grâce à l’intégration du mécanisme d’attention, le modèle appris peut rapidement ajuster son focus sur des phrases différentes pendant la génération, tout en évitant les descriptions redondantes portant sur le même objet. Des expériences quantitatives étendues ainsi qu’une étude utilisateur ont été menées sur le jeu de données Visual Genome, démontrant l’efficacité et l’interprétabilité du modèle proposé.

Regardez plus profondément, voyez plus riches : Résumé par paragraphe d’image sensible à la profondeur | Articles de recherche récents | HyperAI