SceneGen: إنشاء مشهد ثلاثي الأبعاد من صورة واحدة في عملية واحدة تغذية أمامية

أصبحت توليد المحتوى ثلاثي الأبعاد موضوعًا يحظى باهتمام بحثي كبير مؤخرًا بفضل تطبيقاته في الواقع الافتراضي والواقع المعزز والذكاء الاصطناعي الجسدي. في هذا العمل، ن tackled المهمة الصعبة لتوليد عدة أصول ثلاثية الأبعاد داخل صورة مشهد واحدة. وبشكل محدد، تتمثل مساهماتنا في أربعة جوانب: (أ) نقدم إطارًا جديدًا يُدعى SceneGen، والذي يستقبل صورة مشهد وأقنعة الكائنات المرتبطة بها كمدخلات، ويُنتج في الوقت نفسه عدة أصول ثلاثية الأبعاد تتضمن البنية الهندسية والنصوص. ومن الملاحظ أن SceneGen يعمل دون الحاجة إلى عمليات تحسين أو استرجاع أصول مسبقة؛ (ب) نُقدِّم وحدة جديدة لجمع الميزات تدمج المعلومات المحلية والعالمية للمشهد من مُشفرات بصرية وهندسية ضمن وحدة استخراج الميزات. وباستخدام رأس مكاني (position head)، يُمكن لهذا النظام توليد الأصول ثلاثية الأبعاد ومواقعها النسبية في عملية واحدة فقط (feedforward)؛ (ج) نُظهر قابلية التوسع المباشر لـ SceneGen في سيناريوهات الإدخال متعددة الصور. وعلى الرغم من تدريبه فقط على إدخالات صورة واحدة، فإن تصميم المعمارية الخاص بنا يُمكّن من تحسين أداء التوليد عند استخدام إدخالات متعددة الصور؛ (د) أظهرت التقييمات الكمية والكيفية الواسعة كفاءة وقدرة التوليد القوية لنهجنا. نعتقد أن هذا النموذج يقدم حلًا جديدًا لتوليد محتوى ثلاثي الأبعاد عالي الجودة، وقد يسهم في تطوير تطبيقاته العملية في المهام التالية. سيتم الإفراج عن الكود والنموذج بشكل عام عبر الرابط التالي: https://mengmouxu.github.io/SceneGen.