vor 8 Monaten

Zusammenfassung

Wir erweitern die Aufgabe der zusammengesetzten Bildsuche, bei der eine Eingabeabfrage aus einem Bild und einer kurzen textuellen Beschreibung besteht, wie das Bild zu modifizieren ist. Bestehende Methoden wurden bisher nur auf nicht komplexe Bilder in eng umrissenen Bereichen angewendet, wie z.B. Modeprodukte, was den Forschungsumfang zur tiefgründigen visuellen Schlussfolgerung in reichhaltigen bildlichen und sprachlichen Kontexten einschränkt. Um dieses Problem anzugehen, sammeln wir den Datensatz „Compose Image Retrieval on Real-life images“ (CIRR), der über 36.000 Paare von crowd-sourced, offenen Domänenbildern mit menschengenerierten modifizierenden Texten umfasst. Um aktuelle Methoden auf offene Domänen zu erweitern, schlagen wir CIRPLANT vor, ein auf Transformatoren basierendes Modell, das reichhaltiges vorgefertigtes Wissen über Vision und Sprache (V&L) nutzt, um visuelle Merkmale unter Berücksichtigung natürlicher Sprache zu modifizieren. Die Suche erfolgt dann durch eine Nachbarschaftssuche auf den modifizierten Merkmalen. Wir zeigen, dass CIRPLANT mit einer relativ einfachen Architektur bestehende Methoden bei offenen Domänen übertreffen kann, während es gleichzeitig die state-of-the-art-Genauigkeit bei bereits vorhandenen eng umrissenen Datensätzen wie Mode erreicht. Zusammen mit der Veröffentlichung von CIRR glauben wir, dass diese Arbeit weitere Forschungen zur zusammengesetzten Bildsuche anregen wird.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Visuelle Dokumentenabfrage

Multimodal

Aufgabe

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Visuelle Dokumentenabfrage

Multimodal

Aufgabe

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Bildsuche auf realen Bildern mit vortrainierten Sehen-und-Sprache-Modellen

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bildsuche auf realen Bildern mit vortrainierten Sehen-und-Sprache-Modellen

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bildsuche auf realen Bildern mit vortrainierten Sehen-und-Sprache-Modellen

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters