HyperAIHyperAI

Command Palette

Search for a command to run...

4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Abstract

على الرغم من التقدم المحرز في النماذج اللغوية متعددة الوسائط (MLLMs)، تظل قدرتها على الاستدلال حول الهياكل ثلاثية الأبعاد والديناميكيات الزمنية محدودة، نتيجة ضعف الإدراك الرباعي الأبعاد والفهم الزمني. كما أن المعايير الحالية لاختبارات الإجابة على الأسئلة في الفيديو ثلاثية ورباعية الأبعاد (4D VQA) تُركّز على المشاهد الثابتة وتفتقر إلى دعم التحفيز على مستوى المناطق. نعالج هذه التحديات من خلال تقديم ما يلي: (أ) 4D-RGPT، نموذج MLLM متخصص مصمم لاستخلاص التمثيلات الرباعية الأبعاد من الإدخالات الفيديو بتحسين في الإدراك الزمني؛ (ب) التبادل الرباعي الأبعاد الحسي (P4D)، إطار تدريب يُحول التمثيلات الرباعية الأبعاد من نموذج خبير مُجمّد إلى 4D-RGPT لضمان إدراك شامل للبعد الرباعي؛ (ج) R4D-Bench، معيار لمشاهد ديناميكية مزودة بوعي بالعمق ودعم التحفيز على مستوى المناطق، تم بناؤه عبر نموذج هجين يجمع بين الأتمتة والتحقق البشري. وقد أظهر 4D-RGPT تحسينات ملحوظة على كلا المعايير الحالية لاختبارات VQA الرباعية الأبعاد، بالإضافة إلى المعيار المقترح R4D-Bench.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي | Papers | HyperAI