HyperAI

Selbstreflexionsmechanismen, die ausschließlich auf textbasierten Überdenkungsprozessen beruhen, erzielen in den meisten multimodalen Aufgaben gute Ergebnisse. Bei der direkten Anwendung auf Szenarien der Langform-Videobearbeitung zeigen sie jedoch deutliche Grenzen. Die grundlegenden Ursachen hierfür liegen in zwei Punkten: (1) Die Verarbeitung von Langform-Videos erfordert reichhaltigere und dynamischere visuelle Eingaben, sodass eine reine Überdenkung der Textinformationen unzureichend ist und eine zusätzliche, speziell auf visuelle Informationen ausgerichtete Überdenkung notwendig wird; (2) reine textbasierte Reflexionsmechanismen verfügen über keine Fähigkeit zur intermodalen Wechselwirkung, wodurch eine vollständige Integration visueller Informationen während des Reflexionsprozesses verhindert wird. Ausgehend von diesen Erkenntnissen stellen wir REVISOR (REflective VIsual Segment Oriented Reasoning) vor – einen neuartigen Rahmen für werkzeugverstärkte multimodale Reflexion. REVISOR ermöglicht es multimodalen großen Sprachmodellen (MLLMs), gemeinsam introspektive Reflexionsprozesse über Text- und visuelle Modalitäten hinweg zu konstruieren, wodurch ihre Schlussfolgerungsfähigkeit für die Verarbeitung von Langform-Videos erheblich verbessert wird. Um sicherzustellen, dass REVISOR während des Verstärkungslernens lernen kann, präzise Videoabschnitte zu identifizieren, die hoch relevant für die gestellte Frage sind, haben wir die Dual Attribution Decoupled Reward (DADR)-Mechanik entworfen. Diese wird in die GRPO-Trainingsstrategie integriert und stellt eine kausale Ausrichtung zwischen dem Modellverhalten und der ausgewählten Videoevidenz sicher. Insbesondere zeigt der REVISOR-Framework eine signifikante Steigerung der Fähigkeit von MLLMs zur Verarbeitung von Langform-Videos, ohne dass zusätzliche überwachte Feinabstimmung oder externe Modelle erforderlich sind. Die Methode erzielt beeindruckende Ergebnisse auf vier Benchmarks, darunter VideoMME, LongVideoBench, MLVU und LVBench.

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

Abstract

KI mit KI entwickeln

Hyper Newsletters