il y a 6 mois

Résumé

Les modèles auto-supervisés à transformer bidirectionnels, tels que BERT, ont permis des progrès considérables dans un large éventail de tâches de classification textuelle. Toutefois, le monde numérique moderne devient de plus en plus multimodal, et les informations textuelles sont fréquemment accompagnées d'autres modalités, telles que des images. Nous introduisons un modèle bitransformateur multimodal supervisé qui fusionne les informations provenant d'encodeurs textuels et d'encodeurs d'images, et obtenons des performances de pointe sur diverses tâches de classification multimodale, surpassant ainsi des bases solides, y compris sur des jeux de tests difficiles spécifiquement conçus pour évaluer la performance multimodale.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Transformer

Vision Par Ordinateur

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Douwe Kiela Suvrat Bhooshan Hamed Firooz Ethan Perez Davide Testuggine

Résumé

Les modèles auto-supervisés à transformer bidirectionnels, tels que BERT, ont permis des progrès considérables dans un large éventail de tâches de classification textuelle. Toutefois, le monde numérique moderne devient de plus en plus multimodal, et les informations textuelles sont fréquemment accompagnées d'autres modalités, telles que des images. Nous introduisons un modèle bitransformateur multimodal supervisé qui fusionne les informations provenant d'encodeurs textuels et d'encodeurs d'images, et obtenons des performances de pointe sur diverses tâches de classification multimodale, surpassant ainsi des bases solides, y compris sur des jeux de tests difficiles spécifiquement conçus pour évaluer la performance multimodale.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Transformers bitransformeurs multimodaux supervisés pour la classification d'images et de texte

Douwe Kiela Suvrat Bhooshan Hamed Firooz Ethan Perez Davide Testuggine

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformers bitransformeurs multimodaux supervisés pour la classification d'images et de texte

Douwe Kiela Suvrat Bhooshan Hamed Firooz Ethan Perez Davide Testuggine

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformers bitransformeurs multimodaux supervisés pour la classification d'images et de texte

Douwe Kiela Suvrat Bhooshan Hamed Firooz Ethan Perez Davide Testuggine

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters