HyperAIHyperAI

Command Palette

Search for a command to run...

ScanQA: الإجابة على الأسئلة ثلاثية الأبعاد لفهم المشاهد المكانية

Azuma Daichi ; Miyanishi Taiki ; Kurita Shuhei ; Kawanabe Motoaki

الملخص

نقترح مهمة فهم مكاني جديدة في ثلاثية الأبعاد تُعرف بـ "إجابة الأسئلة ثلاثية الأبعاد" (3D-QA). في مهمة 3D-QA، تتلقى النماذج المعلومات البصرية من كامل المشهد الثلاثي الأبعاد للمسح الداخلي الغني بالصورة الملونة والعميقة (RGB-D) وتجيب على الأسئلة النصية المعطاة حول المشهد الثلاثي الأبعاد. على عكس إجابة الأسئلة ثنائية الأبعاد في VQA، تعاني النماذج التقليدية للأسئلة ثنائية الأبعاد من مشاكل في فهم التحالف المكاني والاتجاهات للأجسام وتفشل في تحديد الأجسام من الأسئلة النصية في 3D-QA. نقترح نموذجًا أساسيًا لمهمة 3D-QA يُسمى نموذج ScanQA، حيث يتعلم النموذج وصفًا مدمجًا من اقتراحات الأجسام الثلاثية الأبعاد والتمثيلات الجمل المشفّرة. يربط هذا الوصف المتعلم بين التعبيرات اللغوية والميزات الهندسية الأساسية للمشهد الثلاثي الأبعاد، مما يسهل عملية الانحدار لصناديق الحدود الثلاثية الأبعاد لتحديد الأجسام الموصوفة في الأسئلة النصية وإنتاج الإجابات الصحيحة. قمنا بجمع أزواج من أسئلة وأجوبة معدلة بواسطة البشر تحتوي على إجابات حرة مرتبطة بالأجسام ثلاثية الأبعاد في كل مشهد ثلاثي أبعاد. يتضمن مجموعة البيانات الجديدة الخاصة بنا، وهي مجموعة ScanQA، أكثر من 40 ألف زوج سؤال-إجابة من 800 مشهد داخلي مستخرج من مجموعة بيانات ScanNet. حسب علم us، تعد مهمة 3D-QA المقترحة أول جهد كبير لإجراء إجابة أسئلة مربوطة بالأجسام في بيئات ثلاثية الأبعاد.请注意,最后一句中的“us”在阿拉伯语中通常会转换为第一人称复数“نحن”,以保持句子的连贯性和正式性:حسب علم نحن، تعد مهمة 3D-QA المقترحة أول جهد كبير لإجراء إجابة أسئلة مربوطة بالأجسام في بيئات ثلاثية الأبعاد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp