HyperAIHyperAI

Command Palette

Search for a command to run...

Überwachte multimodale Bitransformer zur Klassifizierung von Bildern und Text

Douwe Kiela Suvrat Bhooshan Hamed Firooz Ethan Perez Davide Testuggine

Zusammenfassung

Selbstüberwachte bidirektionale Transformer-Modelle wie BERT haben erhebliche Fortschritte bei einer Vielzahl von textbasierten Klassifizierungsaufgaben ermöglicht. Die moderne digitale Welt ist jedoch zunehmend multimodal, und textuelle Informationen werden oft durch andere Modalitäten wie Bilder ergänzt. Wir stellen ein überwachtes multimodales Bitransformer-Modell vor, das Informationen aus Text- und Bild-Encodern fusioniert und eine state-of-the-art-Leistung bei verschiedenen Benchmark-Aufgaben zur multimodalen Klassifizierung erzielt, wobei es starke Baselines, einschließlich auf anspruchsvollen Testsets, die speziell zur Messung der multimodalen Leistung konzipiert wurden, übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Überwachte multimodale Bitransformer zur Klassifizierung von Bildern und Text | Paper | HyperAI