كيف يتعلم الذكاء الاصطناعي الرؤية ثلاثية الأبعاد
تواجه أنظمة الذكاء الاصطناعي حاليًا فجوة كبيرة بين قدرتها على تحليل الصور ثنائية الأبعاد وفهمها الحقيقي للفضاء ثلاثي الأبعاد. بينما تتقن النماذج الحالية تحديد الأشياء في الصور وتوليد صور واقعية، فإنها تفشل في إدراك المسافات الفعلية أو مواقع الكائنات في العالم المادي، وهو ما يعيق تطبيقات حيوية مثل الروبوتات والسيارات ذاتية القيادة. لتجاوز هذه العقبة، تتجه الصناعة نحو دمج ثلاث طبقات ذكية من الذكاء الاصطناعي لتحويل الصور العادية إلى مشاهد ثلاثية الأبعاد موسومة بدقة. الطبقة الأولى تركز على تقدير العمق القياسي من صورة واحدة، حيث تستخدم نماذج متطورة مثل Depth-Anything-3 لتوليد خرائط عمق دقيقة تقاس بالأمتار وليس النسبية، مما يتيح وضع الأسطح في نظام إحداثيات حقيقي بسرعة تصل إلى 30 إطارًا في الثانية. أما الطبقة الثانية، فتعتمد على نماذج التقسيم التأسيسي مثل SAM التي تستطيع عزل أي كائن في الصورة بناءً على وصفتك النصية أو النقر، دون الحاجة إلى تدريب مسبق على أنواع محددة من الأشياء. الطبقة الثالثة والأهم هندسيًا هي "الدمج الهندسي"، وهي الجسر الذي يربط التوقعات ثنائية الأبعاد بالأبعاد الثلاثة. هذه العملية تتطلب رياضيات معقدة لتحويل إحداثيات الصورة إلى نقاط ثلاثية الأبعاد باستخدام معلمات الكاميرا والعمق. يتم تجميع التوقعات من زوايا متعددة لتصفية الأخطاء، حيث تستخدم خوارزميات "التصويت الديمقراطي" لتعويض النقاط غير الموسومة. فبدلاً من الاعتماد على تسمية يدوية مكلفة تستغرق ساعات لكل غرفة، يقوم النظام بأخذ عينات من صور متعددة، ثم يضرب تغطية البيانات بأكثر من ثلاثة أضعاف، محولًا نسبة تغطية تبلغ 20% فقط إلى 78% في غضون ثوانٍ على معالج عادي دون الحاجة لبطاقات رسومية متخصصة. هذه الطريقة تخلق نظامًا آليًا بالكامل يمكنه تدقيق وتوسيع التسميات بدقة عالية، مما يسمح بتسريع مشاريع إنشاء التوائم الرقمية والمدن الذكية. ومع ذلك، لا تزال هناك تحديات تواجه حدود التصنيف عند التقاء الجدران بالأسقف، حيث قد تختلف التوقعات بين الكاميرات المتعددة. المستقبل القريب يتجه نحو نماذج قادرة على الحفاظ على الاتساق عبر مشاهد متعددة وتصحيح التنبؤات ثنائية الأبعاد بناءً على الإجماع ثلاثي الأبعاد. نتيجة لهذا التطور، أصبح من الممكن في وقت قياسي معالجة ملايين النقاط ثلاثية الأبعاد من مجرد تسجيل فيديو بسيط، مما يقلل أيام العمل اليدوي إلى دقائق. بينما تظل دقة المليمترات الدقيقة تحديًا في بعض المهام الصناعية، فإن هذه التقنية توفر حلاً عمليًا وسريعًا لـ 80% من الاستخدامات الواقعية، مما يمثل قفزة نوعية في كيفية تفاعل الذكاء الاصطناعي مع العالم المادي.
