Ein encoder-decoder-basierter Rahmen für die Hindi-Bildbeschreibungsgenerierung
In jüngster Zeit hat die Forschungsaktivität im Bereich der Bildbeschreibungsgenerierung mehrere Forscher angezogen. Die vorliegende Arbeit befasst sich mit dem Problem der Generierung von Bildbeschreibungen auf Hindi unter Verwendung des Hindi Visual Genome-Datensatzes. Hindi ist die offizielle und am häufigsten gesprochene Sprache in Indien. In einem sprachlich vielfältigen Land wie Indien ist es von entscheidender Bedeutung, ein Mittel bereitzustellen, das Menschen dabei unterstützt, visuelle Inhalte in ihrer Muttersprache zu verstehen. In diesem Artikel wird eine Architektur auf Basis von Encoder-Decoder vorgestellt, bei der ein Convolutional Neural Network (CNN) zur Kodierung der visuellen Merkmale eines Bildes eingesetzt wird, während ein gestapelter Long Short-Term Memory (sLSTM) in Kombination mit sowohl einseitigem als auch zweiseitigem LSTM zur Generierung von Bildbeschreibungen auf Hindi verwendet wird. Zur Kodierung der visuellen Merkmalsrepräsentation eines Bildes wird ein auf VGG19 basierendes vortrainiertes Modell herangezogen, während die sLSTM-Architektur auf der Dekodierseite für die Generierung der Beschreibungen eingesetzt wird. Das Modell wird anhand des Hindi Visual Genome-Datensatzes getestet, um die Leistungsfähigkeit des vorgeschlagenen Ansatzes zu validieren, und eine Kreuzverifikation für englische Beschreibungen wird mit dem Flickr-Datensatz durchgeführt. Die experimentellen Ergebnisse zeigen, dass der vorgeschlagene Ansatz qualitativ und quantitativ gegenüber aktuellen state-of-the-art-Verfahren für die Generierung von Hindi-Bildbeschreibungen überlegen ist.