HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-CNN: Ein convolutionaler Sprachdecoder für die Abschrift von Absatzbildern

Xiaojie Wang Fangxiang Feng Yihui Shi Haoyun Liang Ruifan Li

Zusammenfassung

Zusammenfassung Die Aufgabe der Absatz-Bildunterschriftgenerierung zielt darauf ab, einen kohärenten Absatz zu einem gegebenen Bild zu generieren. Aufgrund ihrer begrenzten Fähigkeit, langfristige Abhängigkeiten zu erfassen, können rekurrente neuronale Netze oder auf Long-Short-Term-Memory (LSTM)-Architekturen basierende Decoder schwerlich zufriedenstellende textuelle Beschreibungen in Form langer Absätze erzeugen. Zudem zeigt sich eine signifikante Ineffizienz beim Training sequenzieller Decoder. Ausgehend von den Vorteilen von Faltungsneuronalen Netzen (d. h. CNN) schlagen wir in diesem Paper einen Dual-CNN-Decoder mit langfristiger Speicherkapazität und paralleler Berechnung vor, der in der Lage ist, einen semantisch kohärenten Absatz zu einem Bild zu generieren. Unser Dual-CNN-Modell wird auf dem Stanford-Bild-Absatz-Datensatz evaluiert. Umfangreiche Experimente zeigen, dass unser Dual-CNN-Modell Ergebnisse erzielt, die mit den besten aktuellen Modellen vergleichbar sind. Darüber hinaus wird die Vielfalt und Kohärenz der generierten Absätze analysiert, um die Überlegenheit unseres Ansatzes zu unterstreichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp