Command Palette
Search for a command to run...
4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي
4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي
Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen
Abstract
على الرغم من التقدم المحرز في النماذج اللغوية متعددة الوسائط (MLLMs)، تظل قدرتها على الاستدلال حول الهياكل ثلاثية الأبعاد والديناميكيات الزمنية محدودة، نتيجة ضعف الإدراك الرباعي الأبعاد والفهم الزمني. كما أن المعايير الحالية لاختبارات الإجابة على الأسئلة في الفيديو ثلاثية ورباعية الأبعاد (4D VQA) تُركّز على المشاهد الثابتة وتفتقر إلى دعم التحفيز على مستوى المناطق. نعالج هذه التحديات من خلال تقديم ما يلي: (أ) 4D-RGPT، نموذج MLLM متخصص مصمم لاستخلاص التمثيلات الرباعية الأبعاد من الإدخالات الفيديو بتحسين في الإدراك الزمني؛ (ب) التبادل الرباعي الأبعاد الحسي (P4D)، إطار تدريب يُحول التمثيلات الرباعية الأبعاد من نموذج خبير مُجمّد إلى 4D-RGPT لضمان إدراك شامل للبعد الرباعي؛ (ج) R4D-Bench، معيار لمشاهد ديناميكية مزودة بوعي بالعمق ودعم التحفيز على مستوى المناطق، تم بناؤه عبر نموذج هجين يجمع بين الأتمتة والتحقق البشري. وقد أظهر 4D-RGPT تحسينات ملحوظة على كلا المعايير الحالية لاختبارات VQA الرباعية الأبعاد، بالإضافة إلى المعيار المقترح R4D-Bench.