HyperAIHyperAI
vor 12 Tagen

Dual-CNN: Ein convolutionaler Sprachdecoder für die Abschrift von Absatzbildern

{Xiaojie Wang, Fangxiang Feng, Yihui Shi, Haoyun Liang, Ruifan Li}
Abstract

Zusammenfassung Die Aufgabe der Absatz-Bildunterschriftgenerierung zielt darauf ab, einen kohärenten Absatz zu einem gegebenen Bild zu generieren. Aufgrund ihrer begrenzten Fähigkeit, langfristige Abhängigkeiten zu erfassen, können rekurrente neuronale Netze oder auf Long-Short-Term-Memory (LSTM)-Architekturen basierende Decoder schwerlich zufriedenstellende textuelle Beschreibungen in Form langer Absätze erzeugen. Zudem zeigt sich eine signifikante Ineffizienz beim Training sequenzieller Decoder. Ausgehend von den Vorteilen von Faltungsneuronalen Netzen (d. h. CNN) schlagen wir in diesem Paper einen Dual-CNN-Decoder mit langfristiger Speicherkapazität und paralleler Berechnung vor, der in der Lage ist, einen semantisch kohärenten Absatz zu einem Bild zu generieren. Unser Dual-CNN-Modell wird auf dem Stanford-Bild-Absatz-Datensatz evaluiert. Umfangreiche Experimente zeigen, dass unser Dual-CNN-Modell Ergebnisse erzielt, die mit den besten aktuellen Modellen vergleichbar sind. Darüber hinaus wird die Vielfalt und Kohärenz der generierten Absätze analysiert, um die Überlegenheit unseres Ansatzes zu unterstreichen.

Dual-CNN: Ein convolutionaler Sprachdecoder für die Abschrift von Absatzbildern | Neueste Forschungsarbeiten | HyperAI