HyperAIHyperAI

Command Palette

Search for a command to run...

MultiMAE: Multimodale, multitaugliche maskierte Autoencoder

Roman Bachmann David Mizrahi Andrei Atanov Amir Zamir

Zusammenfassung

Wir schlagen eine Vortrainingsstrategie namens Multi-modal Multi-task Masked Autoencoders (MultiMAE) vor. Diese unterscheidet sich von der herkömmlichen Masked Autoencoding-Methode in zwei wesentlichen Aspekten: I) Sie kann optional zusätzliche Modalen an Informationen im Eingabedaten neben dem RGB-Bild aufnehmen (daher „multi-modal“), und II) ihr Trainingsziel beinhaltet entsprechend die Vorhersage mehrerer Ausgaben neben dem RGB-Bild (daher „multi-task“).Wir nutzen Maskierung (über Bildpatches und Eingabemodalitäten hinweg), um die Trainierbarkeit von MultiMAE zu gewährleisten und sicherzustellen, dass das Netzwerk tatsächlich eine prädiktive Kodierung über verschiedene Modalitäten hinweg lernt. Wir zeigen, dass diese Vortrainingsstrategie einen flexiblen, einfachen und effizienten Rahmen bietet, der verbesserte Transferergebnisse für nachfolgende Aufgaben ermöglicht. Insbesondere kann dasselbe vortrainierte Netzwerk flexibel eingesetzt werden, unabhängig davon, ob zusätzliche Informationen neben RGB-Bildern verfügbar sind oder nicht – in allen Konfigurationen erzielt es Ergebnisse, die entweder konkurrenzfähig oder deutlich besser als die Baselines sind. Um die Notwendigkeit von Trainingsdatensätzen mit mehreren Modalitäten und Aufgaben zu vermeiden, trainieren wir MultiMAE vollständig mittels Pseudolabeling, was das Framework für beliebige RGB-Datensätze weitgehend anwendbar macht.Die Experimente werden auf mehreren Transferaufgaben (Bildklassifikation, semantische Segmentierung, Tiefenschätzung) und Datensätzen (ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2) durchgeführt. Die Ergebnisse zeigen eine beeindruckend starke Fähigkeit des Modells in der prädiktiven Kodierung über Modalitäten und Aufgaben hinweg sowie im Transferlernen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp