HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente zeitliche Extrapolation multimodaler großer Sprachmodelle mit zeitlichem Grundierungsbriücke

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

Zusammenfassung

Trotz Fortschritten bei multimodalen großen Sprachmodellen (MLLMs) bleibt die Herausforderung bestehen, lange Videosequenzen im Kontext sprachlicher Abfragen zu interpretieren, was hauptsächlich auf die ineffiziente zeitliche Lokalisierung und die begrenzte Größe des vortrainierten Kontextfensters zurückzuführen ist. In dieser Arbeit stellen wir den Temporal Grounding Bridge (TGB) vor, einen neuartigen Rahmen, der MLLMs mit erweiterten Fähigkeiten zur zeitlichen Lokalisierung ausstattet und deren kontextuelle Reichweite erweitert. Unser Ansatz verbessert die zeitlichen Fähigkeiten bestehender MLLMs signifikant durch drei zentrale Innovationen: einen effizienten Algorithmus zur mehrfachen zeitlichen Lokalisierung, der auf niedrigdimensionalen zeitlichen Merkmalen basiert, die aus optischen Flüssen abgeleitet wurden; ein multimodales Extrapolations-Training für längere Eingabefolgen, das niedrigdimensionale zeitliche Merkmale nutzt, um die Größe des Trainingskontextfensters zu verlängern; sowie einen Bootstrapping-Framework, der unser Modell mit plug-and-play-fähigen MLLMs verbindet, ohne Annotationen zu erfordern. Wir validieren TGB an sieben Video-Benchmarks und zeigen deutliche Leistungsverbesserungen gegenüber vorherigen MLLMs. Insbesondere zeigt unser Modell, das ursprünglich auf Sequenzen aus vier Frames trainiert wurde, eine effektive Handhabung von Sequenzen bis zu 16-mal länger, ohne die Leistungseinbußen zu riskieren – was seine Skalierbarkeit und Effektivität für reale Anwendungen unterstreicht. Unser Code ist öffentlich unter https://github.com/bigai-nlco/VideoTGB verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp