HyperAIHyperAI
vor 17 Tagen

Überwachte multimodale Bitransformer zur Klassifizierung von Bildern und Text

Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine
Überwachte multimodale Bitransformer zur Klassifizierung von Bildern und Text
Abstract

Selbstüberwachte bidirektionale Transformer-Modelle wie BERT haben erhebliche Fortschritte bei einer Vielzahl von textbasierten Klassifizierungsaufgaben ermöglicht. Die moderne digitale Welt ist jedoch zunehmend multimodal, und textuelle Informationen werden oft durch andere Modalitäten wie Bilder ergänzt. Wir stellen ein überwachtes multimodales Bitransformer-Modell vor, das Informationen aus Text- und Bild-Encodern fusioniert und eine state-of-the-art-Leistung bei verschiedenen Benchmark-Aufgaben zur multimodalen Klassifizierung erzielt, wobei es starke Baselines, einschließlich auf anspruchsvollen Testsets, die speziell zur Messung der multimodalen Leistung konzipiert wurden, übertrifft.