vor 2 Monaten

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Zusammenfassung

Trotz Fortschritten in multimodalen Großmodellen (MLLMs) bleibt ihre Fähigkeit, über 3D-Strukturen und zeitliche Dynamiken zu reasoning, weiterhin eingeschränkt, was auf eine schwache 4D-Wahrnehmung und zeitliche Verständnis zurückzuführen ist. Bestehende Benchmarks für 3D- und 4D-Video-Frage-Antwort (VQA) betonen zudem statische Szenen und fehlen an regionenbasiertem Prompting. Wir adressieren diese Herausforderungen durch die Einführung von: (a) 4D-RGPT, einem spezialisierten MLLM, der darauf ausgelegt ist, 4D-Repräsentationen aus Videoeingaben mit verbesserter zeitlicher Wahrnehmung zu erfassen; (b) Perceptual 4D Distillation (P4D), einem Trainingsframework, das 4D-Repräsentationen aus einem fixierten Expertenmodell in 4D-RGPT überträgt, um eine umfassende 4D-Wahrnehmung zu ermöglichen; sowie (c) R4D-Bench, einem Benchmark für tiefenbewusste dynamische Szenen mit regionenbasiertem Prompting, der mittels eines hybriden, automatisierten und menschlich verifizierten Pipelines erstellt wurde. Unser 4D-RGPT erreicht signifikante Verbesserungen sowohl auf bestehenden 4D-VQA-Benchmarks als auch auf dem vorgeschlagenen R4D-Bench-Benchmark.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Visuelle Fragebeantwortung

Multimodale Darstellung

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Visuelle Fragebeantwortung

Multimodale Darstellung

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

4D-RGPT: Ein Schritt hin zu einer regionenbasierten 4D-Wahrnehmung durch perceptuelle Distanzierung

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

4D-RGPT: Ein Schritt hin zu einer regionenbasierten 4D-Wahrnehmung durch perceptuelle Distanzierung

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

4D-RGPT: Ein Schritt hin zu einer regionenbasierten 4D-Wahrnehmung durch perceptuelle Distanzierung

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters