Command Palette
Search for a command to run...
ImageBind: Ein Einbettungsraum, der sie alle verbindet
ImageBind: Ein Einbettungsraum, der sie alle verbindet
Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra
Zusammenfassung
Wir stellen ImageBind vor, einen Ansatz zur Lernung einer gemeinsamen Einbettung über sechs verschiedene Modalitäten – Bilder, Text, Audio, Tiefeninformationen, thermische Daten und IMU-Daten (Inertial Measurement Unit). Wir zeigen, dass nicht alle Kombinationen von gepaarten Daten erforderlich sind, um eine solche gemeinsame Einbettung zu trainieren, und dass lediglich bildgepaarte Daten ausreichen, um die Modalitäten miteinander zu verbinden. ImageBind kann auf große Vision-Sprach-Modelle zurückgreifen und erweitert ihre Fähigkeit zur Nullschuss-Bewertung (zero-shot capabilities) auf neue Modalitäten durch deren natürliche Verbindung mit Bildern. Dies ermöglicht neuartige Anwendungen „aus der Box“ (out-of-the-box), einschließlich multimodaler Retrieval, arithmetischer Zusammensetzung von Modalitäten, multimodaler Detektion und Generierung. Die emergenten Fähigkeiten verbessern sich mit der Stärke des Bildencoders, und wir setzen einen neuen Stand der Technik in emergenten Nullschuss-Erkennungs-Aufgaben über verschiedene Modalitäten, wobei wir spezialisierte überwachte Modelle übertreffen. Schließlich zeigen wir starke Ergebnisse bei Few-Shot-Erkennungsaufgaben, die frühere Arbeiten übertreffen, und dass ImageBind als neuer Weg dient, Vision-Modelle für visuelle und nicht-visuelle Aufgaben zu evaluieren.