HyperAIHyperAI
il y a 17 jours

Transformers bitransformeurs multimodaux supervisés pour la classification d'images et de texte

Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine
Transformers bitransformeurs multimodaux supervisés pour la classification d'images et de texte
Résumé

Les modèles auto-supervisés à transformer bidirectionnels, tels que BERT, ont permis des progrès considérables dans un large éventail de tâches de classification textuelle. Toutefois, le monde numérique moderne devient de plus en plus multimodal, et les informations textuelles sont fréquemment accompagnées d'autres modalités, telles que des images. Nous introduisons un modèle bitransformateur multimodal supervisé qui fusionne les informations provenant d'encodeurs textuels et d'encodeurs d'images, et obtenons des performances de pointe sur diverses tâches de classification multimodale, surpassant ainsi des bases solides, y compris sur des jeux de tests difficiles spécifiquement conçus pour évaluer la performance multimodale.