L-Verse: Bidirektionale Generierung zwischen Bild und Text

Weit über das Erlernen von langreichweitigen Interaktionen natürlicher Sprache hinaus werden Transformer zu dem faktischen Standard für viele visuelle Aufgaben aufgrund ihrer Leistungsfähigkeit und Skalierbarkeit. Insbesondere bei multimodalen Aufgaben zwischen Bildern und Texten werden vektorquantisierte variationelle Autoencoder (VQ-VAEs) häufig verwendet, um ein rohes RGB-Bild in eine Sequenz von Merkmalsvektoren zu verwandeln. Um die Korrelation zwischen Bildern und Text besser auszunutzen, schlagen wir L-Verse vor, eine neuartige Architektur, die aus einem Merkmalsverstärkten variationellen Autoencoder (AugVAE) und einem bidirektionalen autoregressiven Transformer (BiART) besteht, sowohl für die Generierung von Bildern zu Text als auch von Text zu Bildern. Unser AugVAE zeigt den Stand der Technik in der Rekonstruktionsleistung auf der ImageNet1K Validierungsdatensatz und ist robust gegenüber unbekannten Bildern in der Wildnis. Im Gegensatz zu anderen Modellen kann BiART zwischen Bildern (oder Text) als bedingtem Referenzpunkt und einem Generierungstarget unterscheiden. L-Verse kann direkt für die Generierung von Bildern zu Text oder von Text zu Bildern verwendet werden, ohne dass ein Feinabstimmungsschritt oder ein zusätzlicher Objekterkennungsrahmen erforderlich ist. In quantitativen und qualitativen Experimenten zeigt L-Verse beeindruckende Ergebnisse im Vergleich zu früheren Methoden sowohl bei der Generierung von Bildern zu Text als auch von Text zu Bildern auf dem MS-COCO Captions Datensatz. Darüber hinainaus bewerten wir die Skalierbarkeit der L-Verse-Architektur auf den Conceptual Captions und präsentieren das anfängliche Ergebnis des bidirektionalen visuellen-sprachlichen Repräsentationslernens im allgemeinen Bereich.