HyperAIHyperAI
vor 2 Monaten

TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training

Tingyu Qu; Mingxiao Li; Tinne Tuytelaars; Marie-Francine Moens
TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training
Abstract

Neuere Fortschritte bei multimodalen großen Sprachmodellen (LLMs) haben große Erfolge bei der Verarbeitung von multimodalem Inhalt gezeigt. Bei Video-Verarbeitungsaufgaben sind trainingsbasierte Video-LLMs aufgrund des Mangels an hochwertigen, küratoriell erstellten Video-Text-Datensätzen schwierig zu entwickeln. Im Gegensatz dazu sind gepaarte Bild-Text-Daten viel einfacher zu beschaffen, und es gibt erhebliche Ähnlichkeiten zwischen Bildern und Videos. Daher bietet sich die Erweiterung von Bild-LLMs für Video-Verarbeitungsaufgaben als eine attraktive Alternative an. Die Entwicklung effektiver Strategien zur Kompression visueller Tokens aus mehreren Frames ist ein vielversprechender Ansatz, um die leistungsfähigen vortrainierten Bild-LLMs zu nutzen. In dieser Arbeit untersuchen wir die Grenzen der existierenden Kompressionsstrategien zur Erstellung eines trainingsfreien Video-LLM. Unsere Ergebnisse führen zu unserer Methode TS-LLaVA, die visuelle Tokens durch eine Miniaturbild-und-Stichprobenstrategie (Thumbnail-and-Sampling) konstruiert. Gegeben ein Video, wählen wir wenige gleichmäßig verteilte Frames aus allen Eingabeframes aus, um ein Miniaturbild als detaillierte visuelle Anregung zu erstellen, das durch Stichprobenvisuelle Tokens aus allen Eingabeframes ergänzt wird. Unser Verfahren erzielt den neuen Stand der Technik unter trainingsfreien Video-LLMs in verschiedenen Benchmarks. Bemerkenswerterweise übertrifft unser 34-Milliarden-Token-Modell GPT-4V im MVBench-Benchmark und erreicht vergleichbare Leistungen wie das 72-Milliarden-Token-trainingsbasierte Video-LLM, Video-LLaMA2, im anspruchsvollen MLVU-Benchmark. Der Quellcode ist unter https://github.com/tingyu215/TS-LLaVA verfügbar.

TS-LLaVA: Erstellung visueller Token durch Miniaturbild- und Abtastverfahren für video-basierte Large Language Models ohne Training | Neueste Forschungsarbeiten | HyperAI