HyperAIHyperAI
vor 2 Monaten

Video-LLaVA: Lernen einer vereinten visuellen Repräsentation durch Ausrichtung vor der Projektion

Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan
Video-LLaVA: Lernen einer vereinten visuellen Repräsentation durch Ausrichtung vor der Projektion
Abstract

Das große visuelle-sprachliche Modell (LVLM) hat die Leistungsfähigkeit verschiedener nachgelagerter Aufgaben im Bereich der visuellen-sprachlichen Verarbeitung verbessert. Die meisten existierenden Ansätze kodieren Bilder und Videos in getrennte Merkmalsräume, die dann als Eingaben an große Sprachmodelle weitergegeben werden. Aufgrund des Mangels an einheitlicher Tokenisierung für Bilder und Videos, also der Fehljustierung vor der Projektion, wird es schwierig für ein großes Sprachmodell (LLM), mehrmodale Interaktionen aus mehreren mangelhaften Projektionsschichten zu lernen. In dieser Arbeit vereinigen wir die visuelle Darstellung im sprachlichen Merkmalsraum, um das grundlegende LLM zu einem einheitlichen LVLM weiterzuentwickeln. Als Ergebnis legen wir eine einfache, aber robuste LVLM-Basislinie namens Video-LLaVA fest, die von einem gemischten Datensatz aus Bildern und Videos lernt und diese gegenseitig verbessert. Video-LLaVA erzielt überlegene Leistungen auf einer Vielzahl von 9 Bildbenchmarks über 5 Bild-Frage-Antwort-Datensätze und 4 Bildbenchmark-Toolkits. Zudem übertreffen unsere Video-LLaVA-Modelle Video-ChatGPT um 5,8 %, 9,9 %, 18,6 % und 10,1 % auf den Benchmarks MSRVTT, MSVD, TGIF und ActivityNet jeweils. Bemerkenswerterweise zeigen umfangreiche Experimente, dass Video-LLaVA innerhalb einer einheitlichen visuellen Darstellung sowohl Bilder als auch Videos gegenseitig nutzt und Modelle übertrifft, die speziell für Bilder oder Videos entwickelt wurden. Ziel dieser Arbeit ist es, bescheidene Einblicke in die mehrmodalen Eingaben für LLMs zu geben. Quellcode: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}