HyperAIHyperAI

Command Palette

Search for a command to run...

L-Verse: Bidirektionale Generierung zwischen Bild und Text

Taehoon Kim; Gwangmo Song; Sihaeng Lee; Sangyun Kim; Yewon Seo; Soonyoung Lee; Seung Hwan Kim; Honglak Lee; Kyunghoon Bae

Zusammenfassung

Weit über das Erlernen von langreichweitigen Interaktionen natürlicher Sprache hinaus werden Transformer zu dem faktischen Standard für viele visuelle Aufgaben aufgrund ihrer Leistungsfähigkeit und Skalierbarkeit. Insbesondere bei multimodalen Aufgaben zwischen Bildern und Texten werden vektorquantisierte variationelle Autoencoder (VQ-VAEs) häufig verwendet, um ein rohes RGB-Bild in eine Sequenz von Merkmalsvektoren zu verwandeln. Um die Korrelation zwischen Bildern und Text besser auszunutzen, schlagen wir L-Verse vor, eine neuartige Architektur, die aus einem Merkmalsverstärkten variationellen Autoencoder (AugVAE) und einem bidirektionalen autoregressiven Transformer (BiART) besteht, sowohl für die Generierung von Bildern zu Text als auch von Text zu Bildern. Unser AugVAE zeigt den Stand der Technik in der Rekonstruktionsleistung auf der ImageNet1K Validierungsdatensatz und ist robust gegenüber unbekannten Bildern in der Wildnis. Im Gegensatz zu anderen Modellen kann BiART zwischen Bildern (oder Text) als bedingtem Referenzpunkt und einem Generierungstarget unterscheiden. L-Verse kann direkt für die Generierung von Bildern zu Text oder von Text zu Bildern verwendet werden, ohne dass ein Feinabstimmungsschritt oder ein zusätzlicher Objekterkennungsrahmen erforderlich ist. In quantitativen und qualitativen Experimenten zeigt L-Verse beeindruckende Ergebnisse im Vergleich zu früheren Methoden sowohl bei der Generierung von Bildern zu Text als auch von Text zu Bildern auf dem MS-COCO Captions Datensatz. Darüber hinainaus bewerten wir die Skalierbarkeit der L-Verse-Architektur auf den Conceptual Captions und präsentieren das anfängliche Ergebnis des bidirektionalen visuellen-sprachlichen Repräsentationslernens im allgemeinen Bereich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp