ما트ريكس-3D: إنشاء عالم ثلاثي الأبعاد قابِل للاستكشاف من جميع الاتجاهات

تُشكّل إنشاء عوالم ثلاثية الأبعاد قابلة للاستكشاف من صورة واحدة أو مُدخل نصي حجر الأساس في الذكاء المكاني. وتعتمد الأعمال الحديثة على نماذج الفيديو لتحقيق إنشاء عوالم ثلاثية الأبعاد على نطاق واسع وقابلة للتطبيق بشكل عام. ومع ذلك، فإن النماذج الحالية تعاني غالبًا من حدود في نطاق المشاهد المُنشأة. في هذا العمل، نقترح إطار عمل يُسمى Matrix-3D، يعتمد على تمثيل مداري (Panoramic Representation) لإنشاء عوالم ثلاثية الأبعاد قابلة للاستكشاف من كل الاتجاهات بتغطية واسعة، وذلك من خلال دمج إنشاء الفيديو الشرطي مع إعادة بناء المشهد ثلاثي الأبعاد المداري. نبدأ بتدريب نموذج توليد فيديو ثلاثي الأبعاد مداري موجه بالمسار، باستخدام صور المُشَاهِد (Scene Mesh Renders) كشرط، مما يُمكّن من إنشاء فيديوهات مشهد عالية الجودة وموحدة من الناحية الهندسية. ولتحويل فيديو المشهد المداري إلى عالم ثلاثي الأبعاد، نقترح طريقتين منفصلتين: (1) نموذج إعادة بناء مداري كبير يعمل بآلية التمرير الأمامي (Feed-forward) لاستعادة المشهد ثلاثي الأبعاد بسرعة، و(2) خط أنابيب مبني على التحسين (Optimization-based Pipeline) لإعادة بناء المشهد ثلاثي الأبعاد بدقة وتفصيل عالٍ. ولتسهيل التدريب الفعّال، نُقدّم أيضًا مجموعة بيانات تُسمى Matrix-Pano، وهي أول مجموعة صناعية كبيرة الحجم تتضمن 116 ألف تسلسل فيديو مداري ثابت عالي الجودة، مزودة ببيانات العمق وملفات المسار (Trajectory Annotations). تُظهر التجارب الواسعة أداءً متميزًا على مستوى التقنيات الحالية في مجال إنشاء الفيديو المداري وإنشاء العوالم ثلاثية الأبعاد. لمزيد من التفاصيل، يُرجى زيارة: https://matrix-3d.github.io.