HyperAIHyperAI
il y a 2 mois

Modélisation des relations dans les expressions de référence avec des réseaux modulaires compositionnels

Ronghang Hu; Marcus Rohrbach; Jacob Andreas; Trevor Darrell; Kate Saenko
Modélisation des relations dans les expressions de référence avec des réseaux modulaires compositionnels
Résumé

Les personnes se réfèrent souvent aux entités dans une image en termes de leurs relations avec d'autres entités. Par exemple, « le chat noir assis sous la table » fait référence à la fois à une entité « chat noir » et à sa relation avec une autre entité « table ». Comprendre ces relations est essentiel pour interpréter et contextualiser de telles expressions langagières naturelles. La plupart des travaux antérieurs se concentrent sur le contextuelisation holistique d'expressions référentielles complètes à une seule région, ou sur la localisation de relations basée sur un ensemble fixe de catégories. Dans cet article, nous présentons au contraire une architecture profonde modulaire capable d'analyser les expressions référentielles en leurs parties constitutives, d'identifier les entités et les relations mentionnées dans l'expression d'entrée et de les contextualiser toutes dans la scène. Nous appelons cette approche les Réseaux Modulaires Compositionnels (CMNs) : une architecture novatrice qui apprend l'analyse linguistique et l'inférence visuelle de bout en bout. Notre approche repose sur deux types de modules neuronaux qui examinent les régions locales et les interactions paires entre régions. Nous évaluons les CMNs sur plusieurs jeux de données d'expressions référentielles, surpassant les approches de pointe sur toutes les tâches.