HyperAIHyperAI
vor 17 Tagen

Verbesserte Bildbeschreibung für Bengali mittels eines tiefen convolutionalen neuronalen Netzwerks basierenden Encoder-Decoder-Modells

Mohammad Faiyaz Khan, S.M. Sadiq-Ur-Rahman Shifath, Md. Saiful Islam
Verbesserte Bildbeschreibung für Bengali mittels eines tiefen convolutionalen neuronalen Netzwerks basierenden Encoder-Decoder-Modells
Abstract

Bildbeschreibung (Image Captioning) ist eine anspruchsvolle Aufgabe, bei der syntaktisch und semantisch korrekte textuelle Beschreibungen von Bildern in natürlicher Sprache erstellt werden müssen, wobei der Kontext eng mit dem Bildinhalt verknüpft sein muss. Bisherige bedeutende Forschungsarbeiten im Bereich der bengalischen Bildbeschreibung (Bengali Image Captioning, BIC) basieren auf einer Encoder-Decoder-Architektur. In diesem Artikel präsentieren wir ein end-to-end-Bildbeschreibungssystem, das eine multimodale Architektur nutzt, indem ein eindimensionaler Faltungsneuronaler Netzwerk (1D-CNN) zur Kodierung von Sequenzinformationen mit einem vortrainierten ResNet-50-Modell als Bildencoder kombiniert wird, um regionenbasierte visuelle Merkmale zu extrahieren. Wir evaluieren die Leistung unseres Ansatzes anhand der BanglaLekhaImageCaptions-Datenbank unter Verwendung gängiger Bewertungsmetriken und führen zudem eine menschliche Bewertung zur qualitativen Analyse durch. Experimente zeigen, dass unser Sprachencoder feinabgestimmte Informationen in den Beschreibungen erfassen kann und in Kombination mit den visuellen Merkmalen präzise und vielfältige Bildbeschreibungen generiert. Unser Ansatz übertrifft alle bisherigen BIC-Methoden und erreicht eine neue State-of-the-Art-(SOTA)-Leistung mit folgenden Werten: 0,651 für BLUE-1, 0,572 für CIDEr, 0,297 für METEOR, 0,434 für ROUGE und 0,357 für SPICE.