HyperAIHyperAI

Command Palette

Search for a command to run...

Aufmerksamkeitsbasiertes Video-Labeling-Framework für Hindi

Sivaji Bandyopadhyay · Thoudam Doren Singh Alok Singh

Zusammenfassung

In den letzten Zeiten wird intensiv geforscht, um die Lücke zwischen Computer Vision und natürlicher Sprache zu schließen. In diesem Beitrag versuchen wir, das Problem der Hindi-Video-Beschreibung anzugehen. In einem sprachlich vielfältigen Land wie Indien ist es von großer Bedeutung, Mittel bereitzustellen, die helfen, visuelle Inhalte in der jeweiligen Muttersprache zu verstehen. In dieser Arbeit setzen wir eine hybride Aufmerksamkeitsmechanik ein, indem wir den weichen zeitlichen Aufmerksamkeitsmechanismus um eine semantische Aufmerksamkeit erweitern, um das System in die Lage zu versetzen, zu entscheiden, wann es sich auf den visuellen Kontextvektor und den semantischen Eingabewert konzentrieren soll. Der visuelle Kontextvektor des Eingabevideos wird mittels eines 3D-Convolutional Neural Networks (3D CNN) extrahiert, und ein Long Short-Term Memory (LSTM)-Rekurrentes Netzwerk mit Aufmerksamkeitsmodul wird zur Dekodierung des kodierten Kontextvektors eingesetzt. Wir haben unsere Methode an einem intern erstellten Datensatz für Hindi-Video-Beschreibung getestet, der durch Übersetzung des MSR-VTT-Datensatzes und anschließende Nachbearbeitung entstanden ist. Unser System erreicht einen CIDEr-Score von 0,369 und einen METEOR-Score von 0,393 und übertrifft dabei andere Baseline-Modelle, darunter ein RMN-(Reasoning Module Networks)-basiertes Modell.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp