توليد مشهد الحد الأقصى الدلالي

بالاندماج بين قدرات التوليد عالية الدقة لأساليب التوليد الصوتي المُشَرَّطَة بالوسوم، مع المرونة المتوفرة في النماذج التوليدية غير المشروطة، نقترح نموذج GAN يعتمد على "مُختَبَر دلالي" لتوليد مشاهد معقدة دون شرط. نفترض توفر علامات التجزئة البكسلية أثناء التدريب، ونستخدمها لتعلم بنية المشهد. أثناء الاستدلال، يُولِّد نموذجنا أولًا تخطيطًا واقعيًا لتجزئة من الصفر، ثم يُولِّد مشهدًا واقعيًا مشروطًا بهذا التخطيط. أما بالنسبة للجزء الأول، نستخدم شبكة توليد تجزئة تدريجية غير مشروطة تُمثّل توزيع التخطيطات السكانية الواقعية. أما بالنسبة للجزء الثاني، نستخدم شبكة توليد صورة من تجزئة مشروطة تُمثّل توزيع الصور الواقعية المشروطة بالتخطيط الدلالي. عند تدريب النموذج بشكل متكامل (end-to-end)، يتفوق الناتج على النماذج التوليدية الرائدة في مجال توليد الصور غير المشروطة على مجالين صعبين من حيث معيار "مسافة فريشيت إنسيبشن" (Frechet Inception Distance) وتقييمات الدراسات المستخدمين. علاوةً على ذلك، نُظهر أن الخرائط المولَّدة للتجزئة يمكن استخدامها كبيانات تدريب إضافية لتعزيز قدرة شبكات التوليد الحديثة من التجزئة إلى الصورة بشكل كبير.