Aufmerksamkeitsbasiertes Video-Labeling-Framework für Hindi
In den letzten Zeiten wird intensiv geforscht, um die Lücke zwischen Computer Vision und natürlicher Sprache zu schließen. In diesem Beitrag versuchen wir, das Problem der Hindi-Video-Beschreibung anzugehen. In einem sprachlich vielfältigen Land wie Indien ist es von großer Bedeutung, Mittel bereitzustellen, die helfen, visuelle Inhalte in der jeweiligen Muttersprache zu verstehen. In dieser Arbeit setzen wir eine hybride Aufmerksamkeitsmechanik ein, indem wir den weichen zeitlichen Aufmerksamkeitsmechanismus um eine semantische Aufmerksamkeit erweitern, um das System in die Lage zu versetzen, zu entscheiden, wann es sich auf den visuellen Kontextvektor und den semantischen Eingabewert konzentrieren soll. Der visuelle Kontextvektor des Eingabevideos wird mittels eines 3D-Convolutional Neural Networks (3D CNN) extrahiert, und ein Long Short-Term Memory (LSTM)-Rekurrentes Netzwerk mit Aufmerksamkeitsmodul wird zur Dekodierung des kodierten Kontextvektors eingesetzt. Wir haben unsere Methode an einem intern erstellten Datensatz für Hindi-Video-Beschreibung getestet, der durch Übersetzung des MSR-VTT-Datensatzes und anschließende Nachbearbeitung entstanden ist. Unser System erreicht einen CIDEr-Score von 0,369 und einen METEOR-Score von 0,393 und übertrifft dabei andere Baseline-Modelle, darunter ein RMN-(Reasoning Module Networks)-basiertes Modell.