RTMV: مجموعة بيانات توليدية متعددة المقاطع مُحاكاة بالتصوير الشعاعي لمُعالجة توليد مناظر جديدة

نقدّم مجموعة بيانات توليدية كبيرة الحجم لتمثيل المناظر الجديدة، تتكون من حوالي 300 ألف صورة تم عرضها من نحو 2000 مشهدًا معقدة باستخدام تتبع الأشعة عالي الجودة بدقة عالية (1600 × 1600 بكسل). تمثل هذه المجموعة بيانات توليدية بحجم يفوق بكثير المجموعات الحالية لتمثيل المناظر الجديدة، مما يوفر معيارًا موحدًا وواسعًا لتدريب النماذج وتقييمها. تعتمد مشاهد مجموعة البيانات لدينا على أربع مصادر مختلفة من نماذج 3D عالية الجودة، مما يُظهر تباينات صعبة في زوايا الكاميرا، والإضاءة، والشكل، والمواد، والأنسجة. وبما أن مجموعة البيانات هذه كبيرة جدًا لدرجة لا تُمكن الطرق الحالية من معالجتها، نقترح نهجًا جديدًا يُسمى "مجال الضوء المكاني النادر" (Sparse Voxel Light Field – SVLF)، وهو منهج فعّال قائمة على المكعبات (voxels) لتمثيل المناظر الجديدة، ويحقق أداءً مماثلًا لـ NeRF على البيانات التوليدية، مع تسريع تدريبه بعشرة أضعاف، وتسريع عرضه بعشرة أضعاف. تُحقّق SVLF هذه السرعة من خلال الاعتماد على شجرة مكعبات نادرة (sparse voxel octree)، وعينة دقيقة للمكعبات (تتطلب فقط عددًا قليلاً من الاستعلامات لكل شعاع)، وبنية شبكة مختصرة، بالإضافة إلى استخدام خرائط العمق الحقيقية أثناء التدريب. تم إنشاء مجموعة البيانات باستخدام أداة NViSII، وهي مُنظّم توليد أشعة مبني على لغة بايثون، تم تصميمه ليكون سهل الاستخدام والمشاركة حتى للمبتدئين، ومرن وقوي بفضل استخدام البرمجة النصية، ويُمكنه إنشاء صور مُخرَّجة عالية الجودة وفقًا للأسس الفيزيائية. تُتيح التجارب التي أجريناها على مجموعة فرعية من بياناتنا مقارنة الطرق القياسية مثل NeRF وmip-NeRF لتمثيل المشهد الواحد، و pixelNeRF لتمثيل الفئة، مما يشير إلى الحاجة إلى تحسينات مستقبلية في هذا المجال.