HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers bitransformeurs multimodaux supervisés pour la classification d'images et de texte

Douwe Kiela Suvrat Bhooshan Hamed Firooz Ethan Perez Davide Testuggine

Résumé

Les modèles auto-supervisés à transformer bidirectionnels, tels que BERT, ont permis des progrès considérables dans un large éventail de tâches de classification textuelle. Toutefois, le monde numérique moderne devient de plus en plus multimodal, et les informations textuelles sont fréquemment accompagnées d'autres modalités, telles que des images. Nous introduisons un modèle bitransformateur multimodal supervisé qui fusionne les informations provenant d'encodeurs textuels et d'encodeurs d'images, et obtenons des performances de pointe sur diverses tâches de classification multimodale, surpassant ainsi des bases solides, y compris sur des jeux de tests difficiles spécifiquement conçus pour évaluer la performance multimodale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp