HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration du contexte visuel prédicatif dans la détection des interactions homme-objet

Frederic Z. Zhang Yuhui Yuan Dylan Campbell Zhuoyao Zhong Stephen Gould

Résumé

Récemment, le cadre DETR est apparu comme l'approche dominante dans la recherche sur les interactions homme-objet (HOI). En particulier, les détecteurs HOI à deux étapes basés sur les transformateurs se distinguent par leurs performances élevées et leur efficacité en apprentissage. Toutefois, ces approches conditionnent souvent la classification des interactions sur des caractéristiques d'objets dépourvues d'informations contextuelles fines, en privilégiant des indices visuels relatifs à l'identité de l'objet et aux extrémités de sa boîte englobante au détriment des informations sur la posture et l'orientation. Ce choix limite naturellement la reconnaissance d'interactions complexes ou ambigües. Dans ce travail, nous examinons ces problèmes à l'aide de visualisations et de expériences soigneusement conçues. À cette fin, nous étudions comment réintroduire de manière optimale les caractéristiques d'image via une attention croisée. Grâce à une conception améliorée des requêtes, une exploration approfondie des clés et des valeurs, ainsi qu'à des embeddings positionnels des paires de boîtes servant de guide spatial, notre modèle, enrichi par un contexte visuel du prédicat (PViC), surpasser les méthodes de pointe sur les benchmarks HICO-DET et V-COCO, tout en maintenant un coût d'entraînement faible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp