Skalierung des visuellen und visuo-sprachlichen Repräsentationslernens durch noisy textüberwachung

Vorab trainierte Repräsentationen gewinnen für viele NLP- und Wahrnehmungsaufgaben zunehmend an Bedeutung. Während das Repräsentationslernen in der NLP den Übergang zu Trainingsdaten auf rohem Text ohne menschliche Annotationen vollzogen hat, hängen visuelle und visuell-sprachliche Repräsentationen weiterhin stark von sorgfältig zusammengestellten Trainingsdatensätzen ab, die teuer sind oder Fachwissen erfordern. Für visuelle Anwendungen werden Repräsentationen hauptsächlich mit Datensätzen gelernt, die explizite Klassenbezeichnungen wie ImageNet oder OpenImages enthalten. Für visuell-sprachliche Aufgaben beinhalten gängige Datensätze wie Conceptual Captions, MSCOCO oder CLIP alle einen nicht unerheblichen Datensammlungs- (und -reinigungs)prozess. Dieser kostspielige Curation-Prozess begrenzt die Größe der Datensätze und behindert somit das Skalieren der trainierten Modelle. In dieser Arbeit nutzen wir einen verrauschten Datensatz von über einer Milliarde Bild-Alttext-Paaren, der ohne teure Filter- oder Nachbearbeitungsschritte aus dem Conceptual Captions-Datensatz gewonnen wurde. Eine einfache Dual-Encoder-Architektur lernt mithilfe eines kontrastiven Verlustes, visuelle und sprachliche Repräsentationen von Bild-Text-Paaren zu alignieren. Wir zeigen, dass die Größe unseres Korpus seine Rauschanteile kompensieren kann und zu Stand-of-the-Art-Repräsentationen führt, selbst bei einem so einfachen Lernschema. Unsere visuelle Repräsentation erzielt starke Ergebnisse bei der Übertragung auf Klassifizierungsaufgaben wie ImageNet und VTAB. Die alignierten visuellen und sprachlichen Repräsentationen ermöglichen zudem die Null-Shot-Bildklassifizierung und stellen neue Stand-of-the-Art-Ergebnisse bei den Flickr30K- und MSCOCO-Bild-Text-Retrieval-Benchmarks auf, auch wenn sie mit komplexeren Cross-Attention-Modellen verglichen werden. Die Repräsentationen ermöglichen zudem multimodales Suchen mit komplexen Textanfragen sowie Text + Bild-Anfragen.