SQA3D: الإجابة على الأسئلة في المشاهد ثلاثية الأبعاد

نُقدِّم مهمة جديدة لاختبار فهم المشهد من قِبل الوكالات المُتَحَدِّثَة: الإجابة على الأسئلة المرتبطة بالمكان في المشاهد ثلاثية الأبعاد (SQA3D). تتطلب مهمة SQA3D من الوكالة المُختبرة أولاً فهم وضعها (الموقع، الاتجاه، إلخ) داخل المشهد ثلاثي الأبعاد، وفقًا لوصف نصي، ثم التفكير في بيئة محيطها والإجابة على سؤال ضمن هذا السياق. بالاعتماد على 650 مشهدًا من مجموعة بيانات ScanNet، نقدّم مجموعة بيانات تتمحور حول 6800 حالة فريدة، إلى جانب 20400 وصفًا و33400 سؤالًا متنوعًا للتفكير حول هذه الحالات. تفحص هذه الأسئلة طيفًا واسعًا من قدرات التفكير التي يجب أن تمتلكها وكالة ذكية، بدءًا من فهم العلاقات المكانية ووصولًا إلى الفهم العام، والتنقل، والتفكير متعدد الخطوات. تمثل مهمة SQA3D تحديًا كبيرًا للنماذج الحالية متعددة الوسائط، وبخاصة نماذج التفكير ثلاثية الأبعاد. قمنا بتقييم عدة طرق حديثة جدًا، ووجدنا أن أفضل أداء حقق 47.20% من الدرجة الإجمالية، بينما وصل المشاركون البشر غير المحترفين إلى 90.06%. نعتقد أن SQA3D يمكن أن يُسهم في تعزيز الأبحاث المستقبلية في الذكاء الاصطناعي المُتَحَدِّث بقدرات أقوى في فهم السياق والتفكير.