HyperAIHyperAI
il y a 2 mois

BLOC : Fusion bilinéaire superdiagonale pour la réponse aux questions visuelles et la détection des relations visuelles

Hedi Ben-younes; Rémi Cadene; Nicolas Thome; Matthieu Cord
BLOC : Fusion bilinéaire superdiagonale pour la réponse aux questions visuelles et la détection des relations visuelles
Résumé

L'apprentissage de représentations multimodales suscite de plus en plus d'intérêt au sein de la communauté de l'apprentissage profond. Bien que les modèles bilinéaires offrent un cadre intéressant pour trouver des combinaisons subtiles des modalités, leur nombre de paramètres augmente quadratiquement avec les dimensions d'entrée, ce qui rend leur mise en œuvre pratique dans les pipelines classiques d'apprentissage profond difficile. Dans cet article, nous introduisons BLOCK, une nouvelle méthode de fusion multimodale basée sur la décomposition tensorielle superdiagonale par blocs. Cette méthode utilise le concept de rangs par blocs, qui généralise à la fois les notions de rang et de rangs modaux pour les tenseurs, déjà utilisées pour la fusion multimodale. Elle permet de définir de nouvelles façons d'optimiser le compromis entre l'expressivité et la complexité du modèle de fusion, tout en étant capable de représenter des interactions très fines entre les modalités tout en maintenant des représentations monomodales puissantes. Nous démontrons l'intérêt pratique de notre modèle de fusion en utilisant BLOCK pour deux tâches complexes : le Répondant Visuel aux Questions (Visual Question Answering, VQA) et la Détection des Relations Visuelles (Visual Relationship Detection, VRD), où nous concevons des architectures apprenables bout à bout pour représenter des interactions pertinentes entre les modalités. À travers une série d'expériences approfondies, nous montrons que BLOCK se compare favorablement aux modèles actuels de fusion multimodale pour les tâches VQA et VRD. Notre code est disponible à l'adresse suivante : https://github.com/Cadene/block.bootstrap.pytorch.

BLOC : Fusion bilinéaire superdiagonale pour la réponse aux questions visuelles et la détection des relations visuelles | Articles de recherche récents | HyperAI