LEGO-Eval: نحو تقييم دقيق لتصنيع البيئات المُجسمة ثلاثية الأبعاد مع تعزيز الأدوات
Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

الملخص
رغم التقدم الأخير في استخدام النماذج اللغوية الكبيرة (LLMs) لاستنتاج مشاهد ثلاثية الأبعاد تلقائيًا، تُعاني المشاهد المُولَّدة غالبًا من نقص في التخطيط المكاني الواقعية وخصائص الكائنات المُمَثَّلة في البيئات الحقيقية. ويرجع هذا المشكل إلى تعليمات غير كافية التفاصيل، وعامة جدًا، لذا أصبح من الضروري تطوير توليد المشاهد ثلاثية الأبعاد بقيادة تعليمات أكثر تفصيلًا ودقة، تعكس بيئة العالم الحقيقي. وبدون مشاهد واقعية من هذا القبيل، فإن تدريب الوكلاء المُتَمَثِّلين (embodied agents) في بيئات غير واقعية قد يؤدي إلى تعلُّم افتراضات (priors) تختلف بشكل كبير عن قوانين الفيزياء والدلالات في العالم الحقيقي، مما يُقلل من أداء هذه الوكلاء عند نشرها. ولهذا، يُعد التحقق من التوافق بين التعليمات الدقيقة والمشهد المُولَّد أمرًا حاسمًا لضمان التعلُّم الفعّال. غير أن الطرق الحالية لتقييم هذا التوافق، مثل CLIPScore والنماذج البصرية-اللغوية (VLMs)، تفشل غالبًا في تقييم هذا التوافق بشكل موثوق. وينبع هذا العيب بشكل رئيسي من فهم سطحي للمناظر ثلاثية الأبعاد، ما يؤدي إلى تضمين مكونات في المشهد غير مُرَكَّزة بشكل صحيح. ولحل هذه المشكلة، نقدّم "LEGO-Eval"، إطار تقييم مزود بأدوات متنوعة مصممة لترسيخ مكونات المشهد بشكل صريح، مما يمكّن من تقييم أدق للتوافق. كما نُقدّم "LEGO-Bench"، معيارًا مُكوَّنًا من تعليمات مفصلة تُحدِّد تخطيطات معقدة وخصائص لبيئات واقعية. تُظهر التجارب أن "LEGO-Eval" يتفوّق على نموذج VLM كمُقيِّم بفارق 0.41 في معيار F1 عند تقييم توافق المشهد مع التعليمات. وعند تطبيق المعيار (LEGO-Bench)، تُظهر النتائج قيودًا كبيرة في الطرق الحالية لإنشاء المشاهد. ففي جميع الطرق المُختَرَّة، لم تتجاوز معدلات النجاح 10% في إنتاج مشاهد تتماشى تمامًا مع التعليمات الدقيقة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.