vor 6 Monaten

Zusammenfassung

Die Beschreibung eines Videos stellt eine herausfordernde, jedoch attraktive Aufgabe dar, da sie sich an der Schnittstelle von Computer Vision und natürlicher Sprachgenerierung befindet. Aufmerksamkeitsbasierte Modelle haben bisher die besten Ergebnisse erzielt. Allerdings folgen alle diese Ansätze ähnlichen Verfahrensschritten, wie beispielsweise der Aufteilung von Videos in zeitliche Abschnitte (Chunks) aus Frames oder der gleichmäßigen Abtastung von Frames zur visuellen Kodierung. Die Segmentierung eines Videos in Abschnitte oder die gleichmäßige Abtastung von Frames führt jedoch zur Kodierung redundanter visueller Informationen und erfordert zusätzlichen Rechenaufwand, da Videos eine Folge ähnlicher Frames enthalten und unvermeidbaren Störungen wie ungleichmäßiger Beleuchtung, Verdeckung und Bewegungsunschärfen ausgesetzt sind. In diesem Artikel wird ein auf Grenzen basierender Ansatz zur Auswahl von Schlüsselbildern für die Videobeschreibung vorgestellt, der es dem System ermöglicht, eine kompakte Teilmenge von Schlüsselbildern auszuwählen, um die visuelle Information effizient zu kodieren und eine Beschreibung für ein Video zu generieren, ohne dabei signifikant an Qualität zu verlieren. Der vorgeschlagene Ansatz verwendet lediglich 3 bis 4 Bilder pro Video und erzielt auf zwei Benchmark-Datensätzen, MSVD und MSR-VTT (sowohl in Englisch als auch in Hindi), konkurrenzfähige Ergebnisse.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ein effizienter Rahmenwerk zur Schlüsselbildauswahl für Video Captioning

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein effizienter Rahmenwerk zur Schlüsselbildauswahl für Video Captioning

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein effizienter Rahmenwerk zur Schlüsselbildauswahl für Video Captioning

Sivaji Bandyopadhyay Thoudam Doren Singh Salam Michael Singh Loitongbam Sanayai Meetei Alok Singh

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters