HyperAIHyperAI
vor 2 Monaten

Verstehen langer Videos mit multimodalen Sprachmodellen

Ranasinghe, Kanchana ; Li, Xiang ; Kahatapitiya, Kumara ; Ryoo, Michael S.
Verstehen langer Videos mit multimodalen Sprachmodellen
Abstract

Große Sprachmodelle (LLMs) haben es ermöglicht, dass kürzlich entwickelte Ansätze auf Basis von LLMs ausgezeichnete Ergebnisse bei Benchmarks zur Analyse langer Videos erzielen. In dieser Studie untersuchen wir, wie umfangreiches Weltwissen und starke Fähigkeiten im logischen Denken der zugrunde liegenden LLMs diesen hervorragenden Leistungen zuträglich sind. Überraschenderweise stellen wir fest, dass Ansätze auf Basis von LLMs überraschend gute Genauigkeit in Aufgaben mit langen Videos erzielen können, selbst wenn die verfügbare Videoinformation begrenzt ist, manchmal sogar ohne spezifische Videobezogene Informationen. Aufbauend darauf erforschen wir die Einbindung von videobezogenen Informationen in ein LLM-basiertes Framework. Wir nutzen etablierte visuelle Werkzeuge, um drei objektorientierte Informationsmodalitäten aus Videos zu extrahieren, und nutzen dann die natürliche Sprache als Medium zur Fusionierung dieser Informationen. Unser resultierendes Framework für multimodale Videoanalyse (MVU) zeigt Spitzenleistungen bei mehreren Benchmarks zur Videoanalyse. Die starke Leistung auch bei Aufgaben im Bereich der Robotik belegt seine hohe Allgemeingültigkeit. Quellcode: https://github.com/kahnchana/mvu

Verstehen langer Videos mit multimodalen Sprachmodellen | Neueste Forschungsarbeiten | HyperAI