ImageBind: Ein Einbettungsraum, der sie alle verbindet

Wir stellen ImageBind vor, einen Ansatz zur Lernung einer gemeinsamen Einbettung über sechs verschiedene Modalitäten – Bilder, Text, Audio, Tiefeninformationen, thermische Daten und IMU-Daten (Inertial Measurement Unit). Wir zeigen, dass nicht alle Kombinationen von gepaarten Daten erforderlich sind, um eine solche gemeinsame Einbettung zu trainieren, und dass lediglich bildgepaarte Daten ausreichen, um die Modalitäten miteinander zu verbinden. ImageBind kann auf große Vision-Sprach-Modelle zurückgreifen und erweitert ihre Fähigkeit zur Nullschuss-Bewertung (zero-shot capabilities) auf neue Modalitäten durch deren natürliche Verbindung mit Bildern. Dies ermöglicht neuartige Anwendungen „aus der Box“ (out-of-the-box), einschließlich multimodaler Retrieval, arithmetischer Zusammensetzung von Modalitäten, multimodaler Detektion und Generierung. Die emergenten Fähigkeiten verbessern sich mit der Stärke des Bildencoders, und wir setzen einen neuen Stand der Technik in emergenten Nullschuss-Erkennungs-Aufgaben über verschiedene Modalitäten, wobei wir spezialisierte überwachte Modelle übertreffen. Schließlich zeigen wir starke Ergebnisse bei Few-Shot-Erkennungsaufgaben, die frühere Arbeiten übertreffen, und dass ImageBind als neuer Weg dient, Vision-Modelle für visuelle und nicht-visuelle Aufgaben zu evaluieren.