HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Abstract

Selbstreflexionsmechanismen, die ausschließlich auf textbasierten Überdenkungsprozessen beruhen, erzielen in den meisten multimodalen Aufgaben gute Ergebnisse. Bei der direkten Anwendung auf Szenarien der Langform-Videobearbeitung zeigen sie jedoch deutliche Grenzen. Die grundlegenden Ursachen hierfür liegen in zwei Punkten: (1) Die Verarbeitung von Langform-Videos erfordert reichhaltigere und dynamischere visuelle Eingaben, sodass eine reine Überdenkung der Textinformationen unzureichend ist und eine zusätzliche, speziell auf visuelle Informationen ausgerichtete Überdenkung notwendig wird; (2) reine textbasierte Reflexionsmechanismen verfügen über keine Fähigkeit zur intermodalen Wechselwirkung, wodurch eine vollständige Integration visueller Informationen während des Reflexionsprozesses verhindert wird. Ausgehend von diesen Erkenntnissen stellen wir REVISOR (REflective VIsual Segment Oriented Reasoning) vor – einen neuartigen Rahmen für werkzeugverstärkte multimodale Reflexion. REVISOR ermöglicht es multimodalen großen Sprachmodellen (MLLMs), gemeinsam introspektive Reflexionsprozesse über Text- und visuelle Modalitäten hinweg zu konstruieren, wodurch ihre Schlussfolgerungsfähigkeit für die Verarbeitung von Langform-Videos erheblich verbessert wird. Um sicherzustellen, dass REVISOR während des Verstärkungslernens lernen kann, präzise Videoabschnitte zu identifizieren, die hoch relevant für die gestellte Frage sind, haben wir die Dual Attribution Decoupled Reward (DADR)-Mechanik entworfen. Diese wird in die GRPO-Trainingsstrategie integriert und stellt eine kausale Ausrichtung zwischen dem Modellverhalten und der ausgewählten Videoevidenz sicher. Insbesondere zeigt der REVISOR-Framework eine signifikante Steigerung der Fähigkeit von MLLMs zur Verarbeitung von Langform-Videos, ohne dass zusätzliche überwachte Feinabstimmung oder externe Modelle erforderlich sind. Die Methode erzielt beeindruckende Ergebnisse auf vier Benchmarks, darunter VideoMME, LongVideoBench, MLVU und LVBench.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding | Forschungsarbeiten | HyperAI