HyperAIHyperAI

Command Palette

Search for a command to run...

Ein effizienter Rahmenwerk zur Schlüsselbildauswahl für Video Captioning

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

Zusammenfassung

Die Beschreibung eines Videos stellt eine herausfordernde, jedoch attraktive Aufgabe dar, da sie sich an der Schnittstelle von Computer Vision und natürlicher Sprachgenerierung befindet. Aufmerksamkeitsbasierte Modelle haben bisher die besten Ergebnisse erzielt. Allerdings folgen alle diese Ansätze ähnlichen Verfahrensschritten, wie beispielsweise der Aufteilung von Videos in zeitliche Abschnitte (Chunks) aus Frames oder der gleichmäßigen Abtastung von Frames zur visuellen Kodierung. Die Segmentierung eines Videos in Abschnitte oder die gleichmäßige Abtastung von Frames führt jedoch zur Kodierung redundanter visueller Informationen und erfordert zusätzlichen Rechenaufwand, da Videos eine Folge ähnlicher Frames enthalten und unvermeidbaren Störungen wie ungleichmäßiger Beleuchtung, Verdeckung und Bewegungsunschärfen ausgesetzt sind. In diesem Artikel wird ein auf Grenzen basierender Ansatz zur Auswahl von Schlüsselbildern für die Videobeschreibung vorgestellt, der es dem System ermöglicht, eine kompakte Teilmenge von Schlüsselbildern auszuwählen, um die visuelle Information effizient zu kodieren und eine Beschreibung für ein Video zu generieren, ohne dabei signifikant an Qualität zu verlieren. Der vorgeschlagene Ansatz verwendet lediglich 3 bis 4 Bilder pro Video und erzielt auf zwei Benchmark-Datensätzen, MSVD und MSR-VTT (sowohl in Englisch als auch in Hindi), konkurrenzfähige Ergebnisse.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp