Command Palette
Search for a command to run...
4D-RGPT: Ein Schritt hin zu einer regionenbasierten 4D-Wahrnehmung durch perceptuelle Distanzierung
4D-RGPT: Ein Schritt hin zu einer regionenbasierten 4D-Wahrnehmung durch perceptuelle Distanzierung
Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen
Abstract
Trotz Fortschritten in multimodalen Großmodellen (MLLMs) bleibt ihre Fähigkeit, über 3D-Strukturen und zeitliche Dynamiken zu reasoning, weiterhin eingeschränkt, was auf eine schwache 4D-Wahrnehmung und zeitliche Verständnis zurückzuführen ist. Bestehende Benchmarks für 3D- und 4D-Video-Frage-Antwort (VQA) betonen zudem statische Szenen und fehlen an regionenbasiertem Prompting. Wir adressieren diese Herausforderungen durch die Einführung von: (a) 4D-RGPT, einem spezialisierten MLLM, der darauf ausgelegt ist, 4D-Repräsentationen aus Videoeingaben mit verbesserter zeitlicher Wahrnehmung zu erfassen; (b) Perceptual 4D Distillation (P4D), einem Trainingsframework, das 4D-Repräsentationen aus einem fixierten Expertenmodell in 4D-RGPT überträgt, um eine umfassende 4D-Wahrnehmung zu ermöglichen; sowie (c) R4D-Bench, einem Benchmark für tiefenbewusste dynamische Szenen mit regionenbasiertem Prompting, der mittels eines hybriden, automatisierten und menschlich verifizierten Pipelines erstellt wurde. Unser 4D-RGPT erreicht signifikante Verbesserungen sowohl auf bestehenden 4D-VQA-Benchmarks als auch auf dem vorgeschlagenen R4D-Bench-Benchmark.