HyperAIHyperAI

Command Palette

Search for a command to run...

SQA3D: الإجابة على الأسئلة في المشاهد ثلاثية الأبعاد

Xiaojian Ma Silong Yong Zilong Zheng Qing Li Yitao Liang Song-Chun Zhu Siyuan Huang

الملخص

نُقدِّم مهمة جديدة لاختبار فهم المشهد من قِبل الوكالات المُتَحَدِّثَة: الإجابة على الأسئلة المرتبطة بالمكان في المشاهد ثلاثية الأبعاد (SQA3D). تتطلب مهمة SQA3D من الوكالة المُختبرة أولاً فهم وضعها (الموقع، الاتجاه، إلخ) داخل المشهد ثلاثي الأبعاد، وفقًا لوصف نصي، ثم التفكير في بيئة محيطها والإجابة على سؤال ضمن هذا السياق. بالاعتماد على 650 مشهدًا من مجموعة بيانات ScanNet، نقدّم مجموعة بيانات تتمحور حول 6800 حالة فريدة، إلى جانب 20400 وصفًا و33400 سؤالًا متنوعًا للتفكير حول هذه الحالات. تفحص هذه الأسئلة طيفًا واسعًا من قدرات التفكير التي يجب أن تمتلكها وكالة ذكية، بدءًا من فهم العلاقات المكانية ووصولًا إلى الفهم العام، والتنقل، والتفكير متعدد الخطوات. تمثل مهمة SQA3D تحديًا كبيرًا للنماذج الحالية متعددة الوسائط، وبخاصة نماذج التفكير ثلاثية الأبعاد. قمنا بتقييم عدة طرق حديثة جدًا، ووجدنا أن أفضل أداء حقق 47.20% من الدرجة الإجمالية، بينما وصل المشاركون البشر غير المحترفين إلى 90.06%. نعتقد أن SQA3D يمكن أن يُسهم في تعزيز الأبحاث المستقبلية في الذكاء الاصطناعي المُتَحَدِّث بقدرات أقوى في فهم السياق والتفكير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp