vor 8 Monaten

Zusammenfassung

Neuere Fortschritte bei multimodalen großen Sprachmodellen (LLMs) haben große Erfolge bei der Verarbeitung von multimodalem Inhalt gezeigt. Bei Video-Verarbeitungsaufgaben sind trainingsbasierte Video-LLMs aufgrund des Mangels an hochwertigen, küratoriell erstellten Video-Text-Datensätzen schwierig zu entwickeln. Im Gegensatz dazu sind gepaarte Bild-Text-Daten viel einfacher zu beschaffen, und es gibt erhebliche Ähnlichkeiten zwischen Bildern und Videos. Daher bietet sich die Erweiterung von Bild-LLMs für Video-Verarbeitungsaufgaben als eine attraktive Alternative an. Die Entwicklung effektiver Strategien zur Kompression visueller Tokens aus mehreren Frames ist ein vielversprechender Ansatz, um die leistungsfähigen vortrainierten Bild-LLMs zu nutzen. In dieser Arbeit untersuchen wir die Grenzen der existierenden Kompressionsstrategien zur Erstellung eines trainingsfreien Video-LLM. Unsere Ergebnisse führen zu unserer Methode TS-LLaVA, die visuelle Tokens durch eine Miniaturbild-und-Stichprobenstrategie (Thumbnail-and-Sampling) konstruiert. Gegeben ein Video, wählen wir wenige gleichmäßig verteilte Frames aus allen Eingabeframes aus, um ein Miniaturbild als detaillierte visuelle Anregung zu erstellen, das durch Stichprobenvisuelle Tokens aus allen Eingabeframes ergänzt wird. Unser Verfahren erzielt den neuen Stand der Technik unter trainingsfreien Video-LLMs in verschiedenen Benchmarks. Bemerkenswerterweise übertrifft unser 34-Milliarden-Token-Modell GPT-4V im MVBench-Benchmark und erreicht vergleichbare Leistungen wie das 72-Milliarden-Token-trainingsbasierte Video-LLM, Video-LLaMA2, im anspruchsvollen MLVU-Benchmark. Der Quellcode ist unter https://github.com/tingyu215/TS-LLaVA verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Multimodale Darstellung

Tingyu Qu Mingxiao Li Tinne Tuytelaars Marie-Francine Moens

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Multimodale Darstellung

Tingyu Qu Mingxiao Li Tinne Tuytelaars Marie-Francine Moens

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training | Paper | HyperAI

Command Palette

TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training

Tingyu Qu Mingxiao Li Tinne Tuytelaars Marie-Francine Moens

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training

Tingyu Qu Mingxiao Li Tinne Tuytelaars Marie-Francine Moens

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training

Tingyu Qu Mingxiao Li Tinne Tuytelaars Marie-Francine Moens

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters