ScanQA: الإجابة على الأسئلة ثلاثية الأبعاد لفهم المشاهد المكانية

نقترح مهمة فهم مكاني جديدة في ثلاثية الأبعاد تُعرف بـ "إجابة الأسئلة ثلاثية الأبعاد" (3D-QA). في مهمة 3D-QA، تتلقى النماذج المعلومات البصرية من كامل المشهد الثلاثي الأبعاد للمسح الداخلي الغني بالصورة الملونة والعميقة (RGB-D) وتجيب على الأسئلة النصية المعطاة حول المشهد الثلاثي الأبعاد. على عكس إجابة الأسئلة ثنائية الأبعاد في VQA، تعاني النماذج التقليدية للأسئلة ثنائية الأبعاد من مشاكل في فهم التحالف المكاني والاتجاهات للأجسام وتفشل في تحديد الأجسام من الأسئلة النصية في 3D-QA. نقترح نموذجًا أساسيًا لمهمة 3D-QA يُسمى نموذج ScanQA، حيث يتعلم النموذج وصفًا مدمجًا من اقتراحات الأجسام الثلاثية الأبعاد والتمثيلات الجمل المشفّرة. يربط هذا الوصف المتعلم بين التعبيرات اللغوية والميزات الهندسية الأساسية للمشهد الثلاثي الأبعاد، مما يسهل عملية الانحدار لصناديق الحدود الثلاثية الأبعاد لتحديد الأجسام الموصوفة في الأسئلة النصية وإنتاج الإجابات الصحيحة. قمنا بجمع أزواج من أسئلة وأجوبة معدلة بواسطة البشر تحتوي على إجابات حرة مرتبطة بالأجسام ثلاثية الأبعاد في كل مشهد ثلاثي أبعاد. يتضمن مجموعة البيانات الجديدة الخاصة بنا، وهي مجموعة ScanQA، أكثر من 40 ألف زوج سؤال-إجابة من 800 مشهد داخلي مستخرج من مجموعة بيانات ScanNet. حسب علم us، تعد مهمة 3D-QA المقترحة أول جهد كبير لإجراء إجابة أسئلة مربوطة بالأجسام في بيئات ثلاثية الأبعاد.请注意,最后一句中的“us”在阿拉伯语中通常会转换为第一人称复数“نحن”,以保持句子的连贯性和正式性:حسب علم نحن، تعد مهمة 3D-QA المقترحة أول جهد كبير لإجراء إجابة أسئلة مربوطة بالأجسام في بيئات ثلاثية الأبعاد.