HyperAIHyperAI

Command Palette

Search for a command to run...

Verknüpfung von Vision und Sprache mittels lokaler Erzählungen

Jordi Pont-Tuset Jasper Uijlings Soravit Changpinyo Radu Soricut Vittorio Ferrari

Zusammenfassung

Wir schlagen Localized Narratives vor, eine neue Form multimodaler Bildannotierungen, die Vision und Sprache verbindet. Wir bitten die Annotatoren, ein Bild mit ihrer Stimme zu beschreiben, während sie gleichzeitig die Maus über den Bereich bewegen, den sie beschreiben. Da Stimme und Mauszeiger synchronisiert sind, können wir jedes einzelne Wort der Beschreibung räumlich lokalisieren. Diese dichte visuelle Grundlage nimmt die Form eines Mausverlaufssegments pro Wort an und ist einzigartig für unsere Daten. Wir haben 849.000 Bilder mit Localized Narratives annotiert: alle Bilder der COCO-, Flickr30k- und ADE20K-Datensätze sowie 671.000 Bilder aus Open Images, die wir öffentlich zugänglich machen. Wir präsentieren eine umfassende Analyse dieser Annotierungen und zeigen, dass sie vielfältig, genau und effizient zu erzeugen sind. Zudem demonstrieren wir ihre Nützlichkeit für die Anwendung kontrollierter Bildbeschreibung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp