HyperAIHyperAI

Command Palette

Search for a command to run...

Bildkomposition für domainübergreifende Konvertierung ohne Training

Nikos Efthymiadis extsuperscript1 extsuperscript* Bill Psomas extsuperscript1,2 Zakaria Laskar extsuperscript1 Konstantinos Karantzalos extsuperscript2 Yannis Avrithis extsuperscript3 Ondřej Chum extsuperscript1 Giorgos Tolias extsuperscript1

Zusammenfassung

Diese Arbeit befasst sich mit der komponierten Bildsuche im Kontext der Domänenkonvertierung, bei der der Inhalt eines Abfragebildes in der durch den Abfragetext spezifizierten Domäne abgerufen wird. Wir zeigen, dass ein leistungsfähiges visuelles Sprachmodell ausreichende deskriptive Kraft bietet, ohne zusätzliche Trainingsphasen zu benötigen. Das Abfragebild wird durch textuelle Inversion in den Texteingaberaum abgebildet. Im Gegensatz zur üblichen Praxis, die die kontinuierliche Raum von Texttokens verwendet, setzen wir die diskrete Wortsprache ein, indem wir eine nearest-neighbor-Suche (nächste-Nachbarn-Suche) in einem Textvokabular durchführen. Durch diese Inversion wird das Bild weich über das Vokabular abgebildet und durch retrivielle Augmentation (retrieval-basierte Erweiterung) robuster gemacht. Datenbankbilder werden durch ein gewichtete Kombination von Textabfragen abgerufen, wobei die abgebildeten Wörter mit dem Domänetext kombiniert werden. Unsere Methode übertrifft den Stand der Technik erheblich auf Standard- und neu eingeführten Benchmarks. Code: https://github.com/NikosEfth/freedom


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp