HyperAIHyperAI
منذ 2 أشهر

جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد

Mo, Wentao ; Liu, Yang
جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد
الملخص

في مجال الإجابة على الأسئلة البصرية ثلاثية الأبعاد (3D VQA)، يعوق نقص البيانات المُشَرَّحَة بالكامل وتنوع المحتوى البصري المحدود تعميم النماذج إلى مشاهد ومبادئ ثلاثية أبعاد جديدة (مثلاً، يتم استخدام حوالي 800 مشهد فقط في مجموعات بيانات ScanQA و SQA). تعتمد الأساليب الحالية على إضافة المنطق الثلاثي الأبعاد بالمعلومات ثنائية الأبعاد. ومع ذلك، تواجه هذه الأساليب تحديات: فهي إما تستخدم وجهات النظر ثنائية الأبعاد من أعلى إلى أسفل التي تُدخِل معلومات بصرية معقدة ومُفرطة وأحيانًا غير ذات صلة بالسؤال، أو تعتمد على تمثيلات مشهد/صورة مستوية مجمعة عالمياً من النماذج اللغوية ثنائية الأبعاد (2D VLMs)، مما يؤدي إلى فقدان الترابط الدقيق بين الرؤية واللغة.للتغلب على هذه القيود، يستخدم نهجنا عملية اختيار وجهات النظر ثنائية الأبعاد المشروطة بالسؤال، والتي تستهدف الإدخالات ثنائية الأبعاد ذات الصلة الدلالية للحصول على العناصر البصرية الأساسية. ثم ندمج هذا المعرف الثنائي الأبعاد في نظام 3D-VQA عبر هيكل متغير ذو فرعين (two-branch Transformer). يتسم هذا الهيكل بتصميم متغير توأمي (Twin-Transformer) يجمع بشكل مكثف بين الوسائط الثنائية والثلاثية الأبعاد ويُمسك بالترابط الدقيق بين الوسائط، مما يسمح لهما بتعزيز بعضهما البعض بشكل متبادل.بتضمين الآليات المقترحة أعلاه، نقدم BridgeQA، وهو يقدم رؤية جديدة للهياكل المتغيرة متعددة الوسائط المستندة إلى النموذج لـ 3D-VQA. تؤكد التجارب أن BridgeQA حقق أفضل النتائج في مجموعات بيانات 3D-VQA وأنه يتفوق بشكل كبير على الحلول الموجودة. يمكن الوصول إلى الكود من خلال الرابط التالي: $\href{https://github.com/matthewdm0816/BridgeQA}{\text{هذا الرابط}}$.

جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد | أحدث الأوراق البحثية | HyperAI