il y a 17 jours
Transformers bitransformeurs multimodaux supervisés pour la classification d'images et de texte
Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine

Résumé
Les modèles auto-supervisés à transformer bidirectionnels, tels que BERT, ont permis des progrès considérables dans un large éventail de tâches de classification textuelle. Toutefois, le monde numérique moderne devient de plus en plus multimodal, et les informations textuelles sont fréquemment accompagnées d'autres modalités, telles que des images. Nous introduisons un modèle bitransformateur multimodal supervisé qui fusionne les informations provenant d'encodeurs textuels et d'encodeurs d'images, et obtenons des performances de pointe sur diverses tâches de classification multimodale, surpassant ainsi des bases solides, y compris sur des jeux de tests difficiles spécifiquement conçus pour évaluer la performance multimodale.