HyperAIHyperAI

Command Palette

Search for a command to run...

4D-RGPT: Ein Schritt hin zu einer regionenbasierten 4D-Wahrnehmung durch perceptuelle Distanzierung

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Abstract

Trotz Fortschritten in multimodalen Großmodellen (MLLMs) bleibt ihre Fähigkeit, über 3D-Strukturen und zeitliche Dynamiken zu reasoning, weiterhin eingeschränkt, was auf eine schwache 4D-Wahrnehmung und zeitliche Verständnis zurückzuführen ist. Bestehende Benchmarks für 3D- und 4D-Video-Frage-Antwort (VQA) betonen zudem statische Szenen und fehlen an regionenbasiertem Prompting. Wir adressieren diese Herausforderungen durch die Einführung von: (a) 4D-RGPT, einem spezialisierten MLLM, der darauf ausgelegt ist, 4D-Repräsentationen aus Videoeingaben mit verbesserter zeitlicher Wahrnehmung zu erfassen; (b) Perceptual 4D Distillation (P4D), einem Trainingsframework, das 4D-Repräsentationen aus einem fixierten Expertenmodell in 4D-RGPT überträgt, um eine umfassende 4D-Wahrnehmung zu ermöglichen; sowie (c) R4D-Bench, einem Benchmark für tiefenbewusste dynamische Szenen mit regionenbasiertem Prompting, der mittels eines hybriden, automatisierten und menschlich verifizierten Pipelines erstellt wurde. Unser 4D-RGPT erreicht signifikante Verbesserungen sowohl auf bestehenden 4D-VQA-Benchmarks als auch auf dem vorgeschlagenen R4D-Bench-Benchmark.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
4D-RGPT: Ein Schritt hin zu einer regionenbasierten 4D-Wahrnehmung durch perceptuelle Distanzierung | Papers | HyperAI