Command Palette
Search for a command to run...
MURAL: Multimodal, Multitask Retrieval Across Languages
MURAL: Multimodal, Multitask Retrieval Across Languages
Aashi Jain Mandy Guo Krishna Srinivasan Ting Chen Sneha Kudugunta Chao Jia Yinfei Yang Jason Baldridge
Zusammenfassung
Sowohl Bild-Text-Paare als auch Übersetzungs-Paare bieten die Möglichkeit, tiefe Darstellungen und Verbindungen zwischen Sprachen zu erlernen. In MURAL (MUltimodal, MUltitask Representations Across Languages), einem Dual-Encoder-Modell, werden beide Paartypen genutzt, um zwei Aufgaben zu lösen: 1) die Übereinstimmung von Bild und Text und 2) die Übereinstimmung von Übersetzungs-Paaren. Durch die Einbeziehung von Milliarden von Übersetzungs-Paaren erweitert MURAL ALIGN (Jia et al., PMLR'21) – einen state-of-the-art Dual-Encoder, der aus 1,8 Milliarden rauschhaften Bild-Text-Paaren gelernt wurde. Bei Verwendung derselben Encoder erreicht MURAL die Leistung von ALIGN bei der cross-modalen Suche auf gut dokumentierten Sprachen auf mehreren Datensätzen, wobei sie diese sogar übertreffen kann. Wichtiger ist jedoch, dass MURAL die Leistung auf unterrepräsentierten Sprachen erheblich verbessert, was zeigt, dass Text-Text-Lernen die mangelnde Verfügbarkeit von Bild-Text-Beispielen für diese Sprachen kompensieren kann. Auf dem Wikipedia Image-Text-Datensatz beispielsweise verbessert MURAL-base die Zero-shot-Mittelrecall-Werte durchschnittlich um 8,1 % für acht unterrepräsentierte Sprachen und um 6,8 % im Fine-tuning-Setup. Zudem zeigen wir, dass die Textdarstellungen in MURAL nicht nur bezüglich genealogischer Beziehungen, sondern auch aufgrund arealer linguistischer Merkmale – wie etwa des Balkan-Sprachbundes – strukturiert sind.