SyncDreamer: توليد صور متعددة الأوجه متسقة من صورة أحادية المنظور

في هذا البحث، نقدم نموذج توزيع جديد يُدعى "SyncDreamer" والذي يولد صورًا متعددة المناظر من صورة واحدة. باستخدام النماذج الموزعة ثنائية الأبعاد ذات الحجم الكبير والمدربة مسبقًا، أثبتت الدراسات الحديثة مثل Zero123 قدرتها على إنتاج مناظر جديدة معقولة من صورة واحدة لجسم ما. ومع ذلك، فإن الحفاظ على التوافق في الهندسة والألوان للصور المولدة لا يزال تحديًا. لحل هذه المشكلة، نقترح نموذج توزيع متعدد المناظر متناسق الذي يقوم بنمذجة التوزيع الاحتمالي المشترك للصور المتعددة المناظر، مما يمكنه من إنتاج صور متعددة المناظر متوافقة في عملية عكسية واحدة. يقوم SyncDreamer بتوفيق الحالات الوسيطة لجميع الصور المولدة في كل خطوة من العملية العكسية عبر آلية انتباه خصائص واعية بالبعد الثالث (3D-aware feature attention mechanism) التي تربط الخصائص المقابلة عبر المناظر المختلفة. تظهر التجارب أن SyncDreamer يولد صورًا ذات توافق عالٍ بين المناظر المختلفة، مما يجعله مناسبًا جدًا لمجموعة متنوعة من مهام التوليد ثلاثي الأبعاد مثل التركيب新三维视图 (novel-view-synthesis)، النص إلى ثلاثي الأبعاد (text-to-3D)، والصورة إلى ثلاثي الأبعاد (image-to-3D).注:在上述翻译中,“新三维视图”并不是一个常见的科技术语,因此建议将其替换为“مناظر جديدة ثلاثية الأبعاد”以保持专业性和准确性。以下是修正后的版本:في هذا البحث، نقدم نموذج توزيع جديد يُدعى "SyncDreamer" والذي يولد صورًا متعددة المناظر من صورة واحدة. باستخدام النماذج الموزعة ثنائية الأبعاد ذات الحجم الكبير والمدربة مسبقًا، أثبتت الدراسات الحديثة مثل Zero123 قدرتها على إنتاج مناظر جديدة معقولة من صورة واحدة لجسم ما. ومع ذلك، فإن الحفاظ على التوافق في الهندسة والألوان للصور المولدة لا يزال تحديًا. لحل هذه المشكلة، نقترح نموذج توزيع متعدد المناظر متناسق الذي يقوم بنمذجة التوزيع الاحتمالي المشترك للصور المتعددة المناظر، مما يمكنه من إنتاج صور متعددة المناظر متوافقة في عملية عكسية واحدة. يقوم SyncDreamer بتوفيق الحالات الوسيطة لجميع الصور المولدة في كل خطوة من العملية العكسية عبر آلية انتباه خصائص واعية بالبعد الثالث (3D-aware feature attention mechanism) التي تربط الخصائص المقابلة عبر المناظر المختلفة. تظهر التجارب أن SyncDreamer يولد صورًا ذات توافق عالٍ بين المناظر المختلفة، مما يجعله مناسبًا جدًا لمجموعة متنوعة من مهام التوليد ثلاثي الأبعاد مثل التركيب الجديد للمناظر (novel-view-synthesis)، النص إلى ثلاثي الأبعاد (text-to-3D)، والصورة إلى ثلاثي الأبعاد (image-to-3D).