HyperAIHyperAI

Command Palette

Search for a command to run...

جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد

Mo Wentao ; Liu Yang

الملخص

في مجال الإجابة على الأسئلة البصرية ثلاثية الأبعاد (3D VQA)، يعوق نقص البيانات المُشَرَّحَة بالكامل وتنوع المحتوى البصري المحدود تعميم النماذج إلى مشاهد ومبادئ ثلاثية أبعاد جديدة (مثلاً، يتم استخدام حوالي 800 مشهد فقط في مجموعات بيانات ScanQA و SQA). تعتمد الأساليب الحالية على إضافة المنطق الثلاثي الأبعاد بالمعلومات ثنائية الأبعاد. ومع ذلك، تواجه هذه الأساليب تحديات: فهي إما تستخدم وجهات النظر ثنائية الأبعاد من أعلى إلى أسفل التي تُدخِل معلومات بصرية معقدة ومُفرطة وأحيانًا غير ذات صلة بالسؤال، أو تعتمد على تمثيلات مشهد/صورة مستوية مجمعة عالمياً من النماذج اللغوية ثنائية الأبعاد (2D VLMs)، مما يؤدي إلى فقدان الترابط الدقيق بين الرؤية واللغة.للتغلب على هذه القيود، يستخدم نهجنا عملية اختيار وجهات النظر ثنائية الأبعاد المشروطة بالسؤال، والتي تستهدف الإدخالات ثنائية الأبعاد ذات الصلة الدلالية للحصول على العناصر البصرية الأساسية. ثم ندمج هذا المعرف الثنائي الأبعاد في نظام 3D-VQA عبر هيكل متغير ذو فرعين (two-branch Transformer). يتسم هذا الهيكل بتصميم متغير توأمي (Twin-Transformer) يجمع بشكل مكثف بين الوسائط الثنائية والثلاثية الأبعاد ويُمسك بالترابط الدقيق بين الوسائط، مما يسمح لهما بتعزيز بعضهما البعض بشكل متبادل.بتضمين الآليات المقترحة أعلاه، نقدم BridgeQA، وهو يقدم رؤية جديدة للهياكل المتغيرة متعددة الوسائط المستندة إلى النموذج لـ 3D-VQA. تؤكد التجارب أن BridgeQA حقق أفضل النتائج في مجموعات بيانات 3D-VQA وأنه يتفوق بشكل كبير على الحلول الموجودة. يمكن الوصول إلى الكود من خلال الرابط التالي: \href\href{https://github.com/matthewdm0816/BridgeQA}{\text{هذا الرابط}}\href.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد | مستندات | HyperAI