Deep Multimodal Neural Architecture Search

Die Gestaltung effektiver neuronaler Netzwerke ist von grundlegender Bedeutung für das tiefe multimodale Lernen. Die meisten bestehenden Ansätze konzentrieren sich auf eine einzelne Aufgabe und entwerfen neuronale Architekturen manuell, wodurch diese hochgradig aufgabenspezifisch sind und sich schwer auf unterschiedliche Aufgaben verallgemeinern lassen. In diesem Paper stellen wir einen generalisierten Rahmen für das neuronale Architektursuchverfahren im tiefen multimodalen Lernen (MMnas) für verschiedene multimodale Lernaufgaben vor. Gegeben multimodale Eingaben definieren wir zunächst eine Menge elementarer Operationen und bauen daraufhin einen tiefen Encoder-Decoder-basierten einheitlichen Hauptkern (unified backbone) auf, wobei jeder Encoder- oder Decoder-Block einer aus einem vordefinierten Operationspool gesuchten Operation entspricht. Auf diesem einheitlichen Hauptkern werden task-spezifische Kopfmodule angefügt, um verschiedene multimodale Lernaufgaben zu bewältigen. Mittels eines gradientenbasierten NAS-Algorithmus werden die optimalen Architekturen für unterschiedliche Aufgaben effizient gelernt. Umfangreiche Ablationsstudien, umfassende Analysen sowie vergleichende Experimente zeigen, dass das resultierende MMnasNet im Vergleich zu bestehenden State-of-the-Art-Ansätzen erheblich bessere Ergebnisse erzielt – über drei multimodale Lernaufgaben (auf mehr als fünf Datensätzen), darunter Visual Question Answering, Image-Text-Matching und Visual Grounding.