HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-Shot Componierte Text-Bild-Retrieval

Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie

Zusammenfassung

In dieser Arbeit betrachten wir das Problem der zusammengesetzten Bildsuche (Composed Image Retrieval, CIR). Ziel ist es, ein Modell zu trainieren, das multimodale Informationen, wie Text und Bilder, zusammenführt, um Bilder präzise abzurufen, die der Abfrage entsprechen und somit die Ausdrucksfähigkeit des Benutzers erweitert. Wir leisten folgende Beiträge: (i) Wir initiieren einen skalierbaren Pipeline zur automatischen Erstellung von Datensätzen für das Training des CIR-Modells, indem wir einfach einen großen Datensatz von Bild-Text-Paaren nutzen, z.B. eine Teilmenge von LAION-5B; (ii) Wir stellen ein transformerbasiertes adaptives Aggregationsmodell vor, TransAgg genannt, das ein einfaches und effizientes Fusionsmechanismus verwendet, um Informationen aus verschiedenen Modalitäten anpassungsfähig zu kombinieren; (iii) Wir führen umfangreiche Abstraktionsstudien durch, um die Nützlichkeit unseres vorgeschlagenen Verfahrens zur Datenkonstruktion sowie die Effektivität der Kernkomponenten in TransAgg zu untersuchen; (iv) Bei der Evaluation auf öffentlich verfügbaren Benchmarks unter dem Szenario ohne vorherige Anpassung (zero-shot), d.h. beim Training auf den automatisch erstellten Datensätzen und anschließenden direkten Inferenz auf Ziel-Datensätzen im Downstream-Bereich wie CIRR und FashionIQ, erreicht unser vorgeschlagener Ansatz entweder vergleichbare oder deutlich bessere Ergebnisse als die bisherigen besten Modelle (state-of-the-art, SOTA). Projektseite: https://code-kunkun.github.io/ZS-CIR/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp