il y a 7 mois

Résumé

L'apprentissage de représentations multimodales suscite de plus en plus d'intérêt au sein de la communauté de l'apprentissage profond. Bien que les modèles bilinéaires offrent un cadre intéressant pour trouver des combinaisons subtiles des modalités, leur nombre de paramètres augmente quadratiquement avec les dimensions d'entrée, ce qui rend leur mise en œuvre pratique dans les pipelines classiques d'apprentissage profond difficile. Dans cet article, nous introduisons BLOCK, une nouvelle méthode de fusion multimodale basée sur la décomposition tensorielle superdiagonale par blocs. Cette méthode utilise le concept de rangs par blocs, qui généralise à la fois les notions de rang et de rangs modaux pour les tenseurs, déjà utilisées pour la fusion multimodale. Elle permet de définir de nouvelles façons d'optimiser le compromis entre l'expressivité et la complexité du modèle de fusion, tout en étant capable de représenter des interactions très fines entre les modalités tout en maintenant des représentations monomodales puissantes. Nous démontrons l'intérêt pratique de notre modèle de fusion en utilisant BLOCK pour deux tâches complexes : le Répondant Visuel aux Questions (Visual Question Answering, VQA) et la Détection des Relations Visuelles (Visual Relationship Detection, VRD), où nous concevons des architectures apprenables bout à bout pour représenter des interactions pertinentes entre les modalités. À travers une série d'expériences approfondies, nous montrons que BLOCK se compare favorablement aux modèles actuels de fusion multimodale pour les tâches VQA et VRD. Notre code est disponible à l'adresse suivante : https://github.com/Cadene/block.bootstrap.pytorch.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Cadene

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Cadene

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

BLOC : Fusion bilinéaire superdiagonale pour la réponse aux questions visuelles et la détection des relations visuelles

Cadene

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BLOC : Fusion bilinéaire superdiagonale pour la réponse aux questions visuelles et la détection des relations visuelles

Cadene

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BLOC : Fusion bilinéaire superdiagonale pour la réponse aux questions visuelles et la détection des relations visuelles

Cadene

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters