vor 17 Tagen

MultiMAE: Multimodale, multitaugliche maskierte Autoencoder

Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir

Abstract

Wir schlagen eine Vortrainingsstrategie namens Multi-modal Multi-task Masked Autoencoders (MultiMAE) vor. Diese unterscheidet sich von der herkömmlichen Masked Autoencoding-Methode in zwei wesentlichen Aspekten: I) Sie kann optional zusätzliche Modalen an Informationen im Eingabedaten neben dem RGB-Bild aufnehmen (daher „multi-modal“), und II) ihr Trainingsziel beinhaltet entsprechend die Vorhersage mehrerer Ausgaben neben dem RGB-Bild (daher „multi-task“).Wir nutzen Maskierung (über Bildpatches und Eingabemodalitäten hinweg), um die Trainierbarkeit von MultiMAE zu gewährleisten und sicherzustellen, dass das Netzwerk tatsächlich eine prädiktive Kodierung über verschiedene Modalitäten hinweg lernt. Wir zeigen, dass diese Vortrainingsstrategie einen flexiblen, einfachen und effizienten Rahmen bietet, der verbesserte Transferergebnisse für nachfolgende Aufgaben ermöglicht. Insbesondere kann dasselbe vortrainierte Netzwerk flexibel eingesetzt werden, unabhängig davon, ob zusätzliche Informationen neben RGB-Bildern verfügbar sind oder nicht – in allen Konfigurationen erzielt es Ergebnisse, die entweder konkurrenzfähig oder deutlich besser als die Baselines sind. Um die Notwendigkeit von Trainingsdatensätzen mit mehreren Modalitäten und Aufgaben zu vermeiden, trainieren wir MultiMAE vollständig mittels Pseudolabeling, was das Framework für beliebige RGB-Datensätze weitgehend anwendbar macht.Die Experimente werden auf mehreren Transferaufgaben (Bildklassifikation, semantische Segmentierung, Tiefenschätzung) und Datensätzen (ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2) durchgeführt. Die Ergebnisse zeigen eine beeindruckend starke Fähigkeit des Modells in der prädiktiven Kodierung über Modalitäten und Aufgaben hinweg sowie im Transferlernen.