iLRM: نموذج إعادة بناء ثلاثي الأبعاد كبير تكراري

أصبح النمذجة ثلاثية الأبعاد ذات التغذية الأمامية (Feed-forward 3D modeling) منهجًا واعدًا لاستعادة ثلاثية الأبعاد السريعة والعالية الجودة. وبخاصة، اجتذبت طرق إنشاء تمثيلات ثلاثية الأبعاد صريحة مباشرة، مثل تقنية "النثر ثلاثي الأبعاد باستخدام الغاوسيان" (3D Gaussian splatting)، اهتمامًا كبيرًا نظرًا لسرعتها في العرض وعالي جودته، فضلًا عن تعدد تطبيقاتها. ومع ذلك، تعاني العديد من الطرق الحديثة، التي تعتمد بشكل رئيسي على هياكل الترانسفورمر (transformer)، من مشاكل خطيرة في القابلية للتوسع، نظرًا لاعتمادها على الانتباه الكامل بين رموز الصور من عدة مناظر مدخلة، ما يؤدي إلى تكاليف حسابية باهظة كلما زاد عدد المناظر أو دقة الصور. ولتحقيق استعادة ثلاثية الأبعاد ذات تغذية أمامية قابلة للتوسع وفعالة، نقدم نموذجًا ثلاثي الأبعاد تكراريًا كبيرًا (iLRM)، يُولِّد تمثيلات غاوسيان ثلاثية الأبعاد من خلال آلية تحسين تدريجيّة، وتُوجَّه بثلاثة مبادئ أساسية: (1) فصل تمثيل المشهد عن صور المناظر المدخلة، مما يمكّن من تمثيلات ثلاثية أصغر حجمًا؛ (2) تجزئة التفاعلات متعددة المناظر التي تعتمد على الانتباه الكامل إلى نموذج انتباه مزدوج المرحلة، لتقليل التكاليف الحسابية؛ و(3) دمج المعلومات ذات الدقة العالية في كل طبقة لتحقيق استعادة عالية الدقة. أظهرت النتائج التجريبية على مجموعات بيانات شائعة الاستخدام، مثل RE10K وDL3DV، أن iLRM يتفوق على الطرق الحالية من حيث جودة الاستعادة والسرعة. وبشكل مميز، تُظهر iLRM قابلية توسع متفوقة، حيث تُقدِّم جودة استعادة أعلى بشكل ملحوظ تحت تكاليف حسابية مماثلة، وذلك بفضل الاستفادة بكفاءة من عدد أكبر من المناظر المدخلة.