HyperAIHyperAI

Command Palette

Search for a command to run...

الوعي المكاني مهم في الاستدلال البصري لغوي ثلاثي الأبعاد

Yunze Man Liang-Yan Gui Yu-Xiong Wang

الملخص

تمكّن إجراء مهام معقدة للتفكير البصري اللغوي في الفضاء ثلاثي الأبعاد يُمثّل خطوة كبيرة في تطوير الروبوتات المنزلية والذكاء الاصطناعي المُدمج المُركّز حول الإنسان. في هذه الدراسة، نُظهر أن التحدي الحاسم والمتفرّد في التفكير البصري اللغوي ثلاثي الأبعاد هو الوعي المكاني، والذي يشتمل على عنصرين رئيسيين: (1) يُحدّد الوكيل الذاتي موقِعه الذاتي استنادًا إلى مُدخل لغوي. (2) يُجيب الوكيل على أسئلة مفتوحة من منظور الموضع المُحسوب. ولحل هذا التحدي، نقدّم نموذج SIG3D، وهو نموذج مُوجّه بالواقع (Situation-Grounded) من الطرف إلى الطرف (end-to-end) للتفكير البصري اللغوي ثلاثي الأبعاد. نُحَوِّل المشهد ثلاثي الأبعاد إلى تمثيل مكاني نادر (sparse voxel representation)، ونُقدّم مُقدّمًا مُوجّهًا باللغة لتقدير الوضعية، يتبعه وحدة إجابة على الأسئلة المُوجّهة وفقًا للوضعية. تُظهر التجارب على مجموعتي البيانات SQA3D وScanQA أن نموذج SIG3D يتفوّق على النماذج الحالية في مجال التقدير الواقعي والإجابة على الأسئلة بفارق كبير (مثلاً، تحسين بنسبة أكثر من 30٪ في دقة التقدير الواقعي). كما تدعم التحليلات اللاحقة اختيار التصميم المعماري الذي اعتمدناه، وتستكشف الوظائف المتميزة للرموز البصرية والنصية، وتكشف عن الأهمية البالغة للوعي المكاني في مجال الإجابة على الأسئلة ثلاثية الأبعاد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp