HyperAIHyperAI

Command Palette

Search for a command to run...

Contexte et Étiquetage Densément Ancré sur les Attributs

Guojun Yin Lu Sheng Bin Liu Nenghai Yu Xiaogang Wang Jing Shao

Résumé

Le captioning dense vise à localiser simultanément des régions sémantiques et à décrire ces régions d'intérêt (ROIs) par de courtes phrases ou des phrases en langage naturel. Les études précédentes ont montré des progrès remarquables, mais elles sont souvent vulnérables au problème d'aperture, selon lequel une légende générée à partir des caractéristiques à l'intérieur d'une ROI manque de cohérence contextuelle avec son environnement dans l'image d'entrée. Dans ce travail, nous examinons la raisonnement contextuel basé sur les propagations multi-échelles du contenu voisin vers les ROIs cibles. À cette fin, nous concevons un nouveau cadre de captioning dense guidé par le contexte et les attributs, composé de 1) un module d'extraction visuelle contextuelle et 2) un module de génération de descriptions guidées par les attributs multi-niveaux. Sachant que les légendes coexistent souvent avec des attributs linguistiques (tels que qui, quoi et où), nous intégrons également une supervision auxiliaire provenant des attributs linguistiques hiérarchiques pour renforcer la distinctivité des légendes apprises. Des expériences approfondies et des études d'ablation sur le jeu de données Visual Genome démontrent la supériorité du modèle proposé par rapport aux méthodes de pointe actuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp