Effiziente zeitliche Extrapolation multimodaler großer Sprachmodelle mit zeitlichem Grundierungsbriücke

Trotz Fortschritten bei multimodalen großen Sprachmodellen (MLLMs) bleibt die Herausforderung bestehen, lange Videosequenzen im Kontext sprachlicher Abfragen zu interpretieren, was hauptsächlich auf die ineffiziente zeitliche Lokalisierung und die begrenzte Größe des vortrainierten Kontextfensters zurückzuführen ist. In dieser Arbeit stellen wir den Temporal Grounding Bridge (TGB) vor, einen neuartigen Rahmen, der MLLMs mit erweiterten Fähigkeiten zur zeitlichen Lokalisierung ausstattet und deren kontextuelle Reichweite erweitert. Unser Ansatz verbessert die zeitlichen Fähigkeiten bestehender MLLMs signifikant durch drei zentrale Innovationen: einen effizienten Algorithmus zur mehrfachen zeitlichen Lokalisierung, der auf niedrigdimensionalen zeitlichen Merkmalen basiert, die aus optischen Flüssen abgeleitet wurden; ein multimodales Extrapolations-Training für längere Eingabefolgen, das niedrigdimensionale zeitliche Merkmale nutzt, um die Größe des Trainingskontextfensters zu verlängern; sowie einen Bootstrapping-Framework, der unser Modell mit plug-and-play-fähigen MLLMs verbindet, ohne Annotationen zu erfordern. Wir validieren TGB an sieben Video-Benchmarks und zeigen deutliche Leistungsverbesserungen gegenüber vorherigen MLLMs. Insbesondere zeigt unser Modell, das ursprünglich auf Sequenzen aus vier Frames trainiert wurde, eine effektive Handhabung von Sequenzen bis zu 16-mal länger, ohne die Leistungseinbußen zu riskieren – was seine Skalierbarkeit und Effektivität für reale Anwendungen unterstreicht. Unser Code ist öffentlich unter https://github.com/bigai-nlco/VideoTGB verfügbar.