HyperAIHyperAI
il y a 2 mois

Spécialisation des requêtes par groupe et affectation multi-entités basée sur la qualité pour la détection de relations visuelles à base de Transformers

Jongha Kim; Jihwan Park; Jinyoung Park; Jinyoung Kim; Sehyung Kim; Hyunwoo J. Kim
Spécialisation des requêtes par groupe et affectation multi-entités basée sur la qualité pour la détection de relations visuelles à base de Transformers
Résumé

La détection de relations visuelles (VRD) a connu des avancées significatives grâce aux architectures basées sur les Transformers récemment. Cependant, nous identifions deux limitations clés dans l'attribution traditionnelle des étiquettes pour l'entraînement des modèles VRD basés sur les Transformers, qui est un processus consistant à mapper une vérité terrain (GT) à une prédiction. Sous l'attribution traditionnelle, une requête non spécialisée est entraînée car on attend d'une requête qu'elle détecte toutes les relations, ce qui rend difficile pour une requête de se spécialiser dans des relations spécifiques. De plus, une requête est également insuffisamment entraînée car une GT n'est attribuée qu'à une seule prédiction, par conséquent, les prédictions presque correctes ou même correctes sont supprimées en leur attribuant aucune relation comme GT. Pour remédier à ces problèmes, nous proposons la Spécialisation de Requêtes par Groupes et l'Attribution Multiple Sensible à la Qualité (SpeaQ). La Spécialisation de Requêtes par Groupes entraîne une requête spécialisée en divisant les requêtes et les relations en groupes disjoints et en orientant une requête d'un groupe spécifique uniquement vers les relations du groupe de relations correspondant. L'Attribution Multiple Sensible à la Qualité facilite davantage l'entraînement en attribuant une GT à plusieurs prédictions qui sont significativement proches d'une GT en termes de sujet, d'objet et de relation intermédiaire. Les résultats expérimentaux et les analyses montrent que SpeaQ entraîne efficacement des requêtes spécialisées, ce qui permet une meilleure utilisation de la capacité du modèle, aboutissant à des gains de performance constants sans coût supplémentaire d'inférence sur plusieurs modèles VRD et benchmarks. Le code est disponible sur https://github.com/mlvlab/SpeaQ.

Spécialisation des requêtes par groupe et affectation multi-entités basée sur la qualité pour la détection de relations visuelles à base de Transformers | Articles de recherche récents | HyperAI