HyperAIHyperAI

Command Palette

Search for a command to run...

ImageBind: Ein Einbettungsraum, der sie alle verbindet

Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra

Zusammenfassung

Wir stellen ImageBind vor, einen Ansatz zur Lernung einer gemeinsamen Einbettung über sechs verschiedene Modalitäten – Bilder, Text, Audio, Tiefeninformationen, thermische Daten und IMU-Daten (Inertial Measurement Unit). Wir zeigen, dass nicht alle Kombinationen von gepaarten Daten erforderlich sind, um eine solche gemeinsame Einbettung zu trainieren, und dass lediglich bildgepaarte Daten ausreichen, um die Modalitäten miteinander zu verbinden. ImageBind kann auf große Vision-Sprach-Modelle zurückgreifen und erweitert ihre Fähigkeit zur Nullschuss-Bewertung (zero-shot capabilities) auf neue Modalitäten durch deren natürliche Verbindung mit Bildern. Dies ermöglicht neuartige Anwendungen „aus der Box“ (out-of-the-box), einschließlich multimodaler Retrieval, arithmetischer Zusammensetzung von Modalitäten, multimodaler Detektion und Generierung. Die emergenten Fähigkeiten verbessern sich mit der Stärke des Bildencoders, und wir setzen einen neuen Stand der Technik in emergenten Nullschuss-Erkennungs-Aufgaben über verschiedene Modalitäten, wobei wir spezialisierte überwachte Modelle übertreffen. Schließlich zeigen wir starke Ergebnisse bei Few-Shot-Erkennungsaufgaben, die frühere Arbeiten übertreffen, und dass ImageBind als neuer Weg dient, Vision-Modelle für visuelle und nicht-visuelle Aufgaben zu evaluieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp