HyperAIHyperAI

Command Palette

Search for a command to run...

Shotluck Holmes: Eine Familie effizienter kleinskaliger großer Sprach-Vision-Modelle für Video-Beschreibung und -Zusammenfassung

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

Zusammenfassung

Video ist ein zunehmend bedeutendes und informationsdichtes Medium, stellt jedoch erhebliche Herausforderungen für Sprachmodelle dar. Ein typisches Video besteht aus einer Folge kürzerer Segmente, sogenannter Shots, die gemeinsam eine kohärente Erzählung bilden. Jeder Shot ist vergleichbar mit einem Wort in einem Satz, bei dem mehrere Datenströme (wie visuelle und akustische Informationen) gleichzeitig verarbeitet werden müssen. Die Verständnis des gesamten Videos erfordert nicht nur die Interpretation der visuellen und akustischen Informationen jedes Shots, sondern auch die Fähigkeit des Modells, die Gedanken zwischen den einzelnen Shots zu verknüpfen, um eine umfassende, zusammenhängende Geschichte zu generieren. Trotz erheblicher Fortschritte in der Forschung werden in aktuellen Arbeiten oft die fein granularen, shot-basierten semantischen Informationen von Videos vernachlässigt. In diesem Projekt stellen wir eine Familie effizienter großer Sprach-Vision-Modelle (LLVMs) vor, die die Video-Zusammenfassung und -Beschreibung verbessern sollen und unter dem Namen Shotluck Holmes bekannt sind. Durch die Nutzung verbesserter Vortrainings- und Datensammlungsstrategien erweitern wir die Fähigkeiten bestehender kleiner LLVMs von der Bildverarbeitung auf die Verarbeitung von Bildfolgen. Konkret zeigen wir, dass Shotluck Holmes auf der Shot2Story-Aufgabe zur Video-Beschreibung und -Zusammenfassung eine bessere Leistung erzielt als die derzeitigen State-of-the-Art-Methoden, und zwar mit deutlich kleineren und rechnerisch effizienteren Modellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Shotluck Holmes: Eine Familie effizienter kleinskaliger großer Sprach-Vision-Modelle für Video-Beschreibung und -Zusammenfassung | Paper | HyperAI