منذ 8 أشهر

الملخص

في مجال الإجابة على الأسئلة البصرية ثلاثية الأبعاد (3D VQA)، يعوق نقص البيانات المُشَرَّحَة بالكامل وتنوع المحتوى البصري المحدود تعميم النماذج إلى مشاهد ومبادئ ثلاثية أبعاد جديدة (مثلاً، يتم استخدام حوالي 800 مشهد فقط في مجموعات بيانات ScanQA و SQA). تعتمد الأساليب الحالية على إضافة المنطق الثلاثي الأبعاد بالمعلومات ثنائية الأبعاد. ومع ذلك، تواجه هذه الأساليب تحديات: فهي إما تستخدم وجهات النظر ثنائية الأبعاد من أعلى إلى أسفل التي تُدخِل معلومات بصرية معقدة ومُفرطة وأحيانًا غير ذات صلة بالسؤال، أو تعتمد على تمثيلات مشهد/صورة مستوية مجمعة عالمياً من النماذج اللغوية ثنائية الأبعاد (2D VLMs)، مما يؤدي إلى فقدان الترابط الدقيق بين الرؤية واللغة.للتغلب على هذه القيود، يستخدم نهجنا عملية اختيار وجهات النظر ثنائية الأبعاد المشروطة بالسؤال، والتي تستهدف الإدخالات ثنائية الأبعاد ذات الصلة الدلالية للحصول على العناصر البصرية الأساسية. ثم ندمج هذا المعرف الثنائي الأبعاد في نظام 3D-VQA عبر هيكل متغير ذو فرعين (two-branch Transformer). يتسم هذا الهيكل بتصميم متغير توأمي (Twin-Transformer) يجمع بشكل مكثف بين الوسائط الثنائية والثلاثية الأبعاد ويُمسك بالترابط الدقيق بين الوسائط، مما يسمح لهما بتعزيز بعضهما البعض بشكل متبادل.بتضمين الآليات المقترحة أعلاه، نقدم BridgeQA، وهو يقدم رؤية جديدة للهياكل المتغيرة متعددة الوسائط المستندة إلى النموذج لـ 3D-VQA. تؤكد التجارب أن BridgeQA حقق أفضل النتائج في مجموعات بيانات 3D-VQA وأنه يتفوق بشكل كبير على الحلول الموجودة. يمكن الوصول إلى الكود من خلال الرابط التالي: $\href{https://github.com/matthewdm0816/BridgeQA}{\text{هذا الرابط}}$ .

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Mo Wentao ; Liu Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Mo Wentao ; Liu Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Mo Wentao ; Liu Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد

Mo Wentao ; Liu Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد

Mo Wentao ; Liu Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الفجوة بين الإجابة على الأسئلة البصرية ثنائية وثلاثية الأبعاد: نهج التكامل لـ VQA ثلاثي الأبعاد

Mo Wentao ; Liu Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters