HyperAIHyperAI

Command Palette

Search for a command to run...

Regardez plus profondément, voyez plus riches : Résumé par paragraphe d’image sensible à la profondeur

Hongzhi Yin Zi Huang Yang Li Yadan Luo Ziwei Wang

Résumé

Face à la disponibilité généralisée des systèmes de génération de légendes d’images au niveau de la phrase, la génération automatique de paragraphes d’images reste encore peu explorée. Décrire une image à l’aide d’un paragraphe complet suppose une organisation ordonnée, cohérente et diversifiée des phrases, ce qui implique inévitablement une complexité supérieure à celle d’une simple phrase. Les méthodes existantes de génération de légendes paragraphe pour images produisent une suite de phrases visant à représenter les objets et régions d’intérêt, où les descriptions sont essentiellement générées en alimentant des fragments d’image contenant ces objets dans des modèles conventionnels de génération de légendes mono-phrase. Cette approche se heurte à des difficultés pour garantir une hiérarchie spatiale cohérente et éviter les chevauchements entre objets. Dans cet article, nous proposons un modèle d’attention conscient de la profondeur (Depth-aware Attention Model, DAM) pour générer des paragraphes de légendes d’images. La profondeur des différentes régions de l’image est d’abord estimée afin de distinguer les objets selon leurs positions spatiales, ce qui permet ensuite de guider le décodeur linguistique dans la mise en évidence des relations spatiales entre objets. Ce modèle construit le paragraphe de manière logique et cohérente. Grâce à l’intégration du mécanisme d’attention, le modèle appris peut rapidement ajuster son focus sur des phrases différentes pendant la génération, tout en évitant les descriptions redondantes portant sur le même objet. Des expériences quantitatives étendues ainsi qu’une étude utilisateur ont été menées sur le jeu de données Visual Genome, démontrant l’efficacité et l’interprétabilité du modèle proposé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp