الوعي المكاني مهم في الاستدلال البصري لغوي ثلاثي الأبعاد

تمكّن إجراء مهام معقدة للتفكير البصري اللغوي في الفضاء ثلاثي الأبعاد يُمثّل خطوة كبيرة في تطوير الروبوتات المنزلية والذكاء الاصطناعي المُدمج المُركّز حول الإنسان. في هذه الدراسة، نُظهر أن التحدي الحاسم والمتفرّد في التفكير البصري اللغوي ثلاثي الأبعاد هو الوعي المكاني، والذي يشتمل على عنصرين رئيسيين: (1) يُحدّد الوكيل الذاتي موقِعه الذاتي استنادًا إلى مُدخل لغوي. (2) يُجيب الوكيل على أسئلة مفتوحة من منظور الموضع المُحسوب. ولحل هذا التحدي، نقدّم نموذج SIG3D، وهو نموذج مُوجّه بالواقع (Situation-Grounded) من الطرف إلى الطرف (end-to-end) للتفكير البصري اللغوي ثلاثي الأبعاد. نُحَوِّل المشهد ثلاثي الأبعاد إلى تمثيل مكاني نادر (sparse voxel representation)، ونُقدّم مُقدّمًا مُوجّهًا باللغة لتقدير الوضعية، يتبعه وحدة إجابة على الأسئلة المُوجّهة وفقًا للوضعية. تُظهر التجارب على مجموعتي البيانات SQA3D وScanQA أن نموذج SIG3D يتفوّق على النماذج الحالية في مجال التقدير الواقعي والإجابة على الأسئلة بفارق كبير (مثلاً، تحسين بنسبة أكثر من 30٪ في دقة التقدير الواقعي). كما تدعم التحليلات اللاحقة اختيار التصميم المعماري الذي اعتمدناه، وتستكشف الوظائف المتميزة للرموز البصرية والنصية، وتكشف عن الأهمية البالغة للوعي المكاني في مجال الإجابة على الأسئلة ثلاثية الأبعاد.