MIDI: التمايز متعدد المثيلات للتحويل من صورة واحدة إلى مشهد ثلاثي الأبعاد

يقدّم هذا البحث نموذج MIDI، وهو منهجية جديدة لتكوين مشاهد ثلاثية الأبعاد مركبة من صورة واحدة. على عكس الطرق الحالية التي تعتمد على تقنيات إعادة البناء أو الاسترجاع، أو الطرق الحديثة التي تستخدم توليدًا متعدد المراحل لكائنات على حدة، يمتد نموذج MIDI إلى نماذج توليد الكائنات ثلاثية الأبعاد من الصور المُدرّبة مسبقًا، ليصبح نموذجًا توزيعيًا متعدد الكائنات، مما يتيح توليد عدة كائنات ثلاثية الأبعاد في آن واحد، مع الحفاظ على العلاقات المكانية الدقيقة وقدرة عامة عالية. ويعتمد نموذج MIDI بشكل أساسي على آلية انتباه متعددة الكائنات جديدة، تُمكّن من التقاط التفاعلات بين الكائنات والتماسك المكاني مباشرةً أثناء عملية التوليد، دون الحاجة إلى عمليات متعددة المراحل المعقدة. ويستخدم النموذج صورًا جزئية للكائنات والسياق العام للمشهد كمدخلات، ويُعدّ مباشرةً عملية إكمال الكائنات أثناء التوليد ثلاثي الأبعاد. خلال التدريب، نُوجّه بشكل فعّال تفاعلات الكائنات ثلاثية الأبعاد باستخدام كمية محدودة من البيانات على مستوى المشهد، مع دمج بيانات الكائن الواحد لغرض الت régularisation، مما يحافظ على قدرة التعميم المُدرّبة مسبقًا. وتبين نتائج تقييمات نموذج MIDI أداءً متميزًا على مستوى الحد الأدنى في توليد المشهد من الصورة، وذلك عبر تقييمات أُجريت على بيانات محاكاة، وبيانات مشاهد واقعية، ومشاهد مُصممة بأسلوب معين تم إنشاؤها باستخدام نماذج توليد الصور من النصوص التوزيعية.