NITS-VC-System für die VATEX-Videozusammenfassungsaufgabe 2020

Die Video-Kommentierung (Video Captioning) ist der Prozess, den Inhalt, die Ereignisse und Aktionen eines Videos in einer kurzen textuellen Form zusammenzufassen, was in zahlreichen Forschungsbereichen von Nutzen sein kann, beispielsweise bei der video-gesteuerten maschinellen Übersetzung, der Sentiment-Analyse von Videos sowie der Unterstützung bedürftiger Personen. In diesem Paper wird die Systembeschreibung des verwendeteten Frameworks für die VATEX-2020-Challenge zur Video-Kommentierung vorgestellt. Wir setzen einen Encoder-Decoder-Ansatz ein, bei dem die visuellen Merkmale des Videos mittels eines dreidimensionalen Faltungsneuralen Netzes (3D Convolutional Neural Network, C3D) kodiert werden. Im Dekodierungsprozess werden zwei Long Short Term Memory (LSTM)-Recurrent-Neurale-Netzwerke eingesetzt, bei denen die visuellen Merkmale und die Eingabekommentare getrennt fusioniert werden. Das endgültige Ausgabewort wird durch eine elementweise Multiplikation der Ausgaben beider LSTMs generiert. Unser Modell erreicht BLEU-Scores von 0,20 auf dem öffentlichen sowie 0,22 auf dem privaten Testdatensatz.