HyperAIHyperAI

Command Palette

Search for a command to run...

4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

الملخص

على الرغم من التقدم المحرز في النماذج اللغوية متعددة الوسائط (MLLMs)، تظل قدرتها على الاستدلال حول الهياكل ثلاثية الأبعاد والديناميكيات الزمنية محدودة، نتيجة ضعف الإدراك الرباعي الأبعاد والفهم الزمني. كما أن المعايير الحالية لاختبارات الإجابة على الأسئلة في الفيديو ثلاثية ورباعية الأبعاد (4D VQA) تُركّز على المشاهد الثابتة وتفتقر إلى دعم التحفيز على مستوى المناطق. نعالج هذه التحديات من خلال تقديم ما يلي: (أ) 4D-RGPT، نموذج MLLM متخصص مصمم لاستخلاص التمثيلات الرباعية الأبعاد من الإدخالات الفيديو بتحسين في الإدراك الزمني؛ (ب) التبادل الرباعي الأبعاد الحسي (P4D)، إطار تدريب يُحول التمثيلات الرباعية الأبعاد من نموذج خبير مُجمّد إلى 4D-RGPT لضمان إدراك شامل للبعد الرباعي؛ (ج) R4D-Bench، معيار لمشاهد ديناميكية مزودة بوعي بالعمق ودعم التحفيز على مستوى المناطق، تم بناؤه عبر نموذج هجين يجمع بين الأتمتة والتحقق البشري. وقد أظهر 4D-RGPT تحسينات ملحوظة على كلا المعايير الحالية لاختبارات VQA الرباعية الأبعاد، بالإضافة إلى المعيار المقترح R4D-Bench.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي | مستندات | HyperAI