HyperAIHyperAI
vor 8 Tagen

Ein effizienter Rahmenwerk zur Schlüsselbildauswahl für Video Captioning

{Sivaji Bandyopadhyay, Thoudam Doren Singh, Salam Michael Singh, Loitongbam Sanayai Meetei, Alok Singh}
Ein effizienter Rahmenwerk zur Schlüsselbildauswahl für Video Captioning
Abstract

Die Beschreibung eines Videos stellt eine herausfordernde, jedoch attraktive Aufgabe dar, da sie sich an der Schnittstelle von Computer Vision und natürlicher Sprachgenerierung befindet. Aufmerksamkeitsbasierte Modelle haben bisher die besten Ergebnisse erzielt. Allerdings folgen alle diese Ansätze ähnlichen Verfahrensschritten, wie beispielsweise der Aufteilung von Videos in zeitliche Abschnitte (Chunks) aus Frames oder der gleichmäßigen Abtastung von Frames zur visuellen Kodierung. Die Segmentierung eines Videos in Abschnitte oder die gleichmäßige Abtastung von Frames führt jedoch zur Kodierung redundanter visueller Informationen und erfordert zusätzlichen Rechenaufwand, da Videos eine Folge ähnlicher Frames enthalten und unvermeidbaren Störungen wie ungleichmäßiger Beleuchtung, Verdeckung und Bewegungsunschärfen ausgesetzt sind. In diesem Artikel wird ein auf Grenzen basierender Ansatz zur Auswahl von Schlüsselbildern für die Videobeschreibung vorgestellt, der es dem System ermöglicht, eine kompakte Teilmenge von Schlüsselbildern auszuwählen, um die visuelle Information effizient zu kodieren und eine Beschreibung für ein Video zu generieren, ohne dabei signifikant an Qualität zu verlieren. Der vorgeschlagene Ansatz verwendet lediglich 3 bis 4 Bilder pro Video und erzielt auf zwei Benchmark-Datensätzen, MSVD und MSR-VTT (sowohl in Englisch als auch in Hindi), konkurrenzfähige Ergebnisse.

Ein effizienter Rahmenwerk zur Schlüsselbildauswahl für Video Captioning | Neueste Forschungsarbeiten | HyperAI