توليد الصور من التخطيط

رغم التقدم الملحوظ الذي تحقق مؤخرًا في نماذج التوليد، لا يزال إنشاء صور تصور تخطيطات معقدة ومتعددة للأجسام مشكلة صعبة. من بين التحديات الأساسية تنوع المظهر الذي قد تتمتع به جسمة معينة، وما ينتج عن ذلك من مجموعة هائلة من الصور المتسقة مع تخطيط محدد. لمواجهة هذه التحديات، نقترح نهجًا جديدًا لتوليد الصور بناءً على التخطيط؛ نطلق عليه اسم Layout2Im. بالنظر إلى التخطيط الفضائي الخشن (المربعات الحدودية + فئات الأجسام)، يمكن لنموذجنا إنشاء مجموعة من الصور الواقعية التي تحتوي على الأجسام الصحيحة في المواقع المرغوبة. يتم فصل تمثيل كل جسم إلى جزء محدد (الفئة) وجزء غير محدد (المظهر). يتم ترميز الفئة باستخدام غرس الكلمات، بينما يتم استخلاص المظهر إلى متجه ذي أبعاد منخفضة يتم اختياره عشوائيًا من توزيع طبيعي. يتم تركيب تمثيلات الأجسام الفردية junto باستخدام LSTM الإقحامية، للحصول على ترميز للتخطيط الكامل، ثم يتم فك شفرته إلى صورة. تم تقديم عدة حدود خسارة لتشجيع إنشاء دقيق ومتنوع. يتفوق النموذج المقترح Layout2Im بشكل كبير على أفضل ما سبقه في هذا المجال، حيث رفع أفضل درجة تم الإبلاغ عنها في اختبار Inception بنسبة 24.66٪ و28.57٪ على قاعدتي بيانات COCO-Stuff وVisual Genome الشديدتين التعقيد، على التوالي. كما أن التجارب الواسعة أيضًا أثبتت قدرة طريقتنا على إنشاء صور معقدة ومتنوعة تحتوي على أجسام متعددة.注释:在最后一句中,“junto”一词为误植,正确的阿拉伯语表达应当直接连接“تم تركيب تمثيلات الأجسام الفردية”与“باستخدام LSTM الإقiasmية”。正确的翻译如下:تم تركيب تمثيلات الأجسام الفردية باستخدام LSTM الإقiasmية، للحصول على ترميز للتخطيط الكامل، ثم يتم فك شفرته إلى صورة.然而,为了保持译文的流畅性和可读性,建议将该部分调整为:يتم تركيب تمثيلات الأجسام الفردية باستخدام LSTM الإقiasmية للحصول على ترميز للتخطيط الكامل، ومن ثم فك شفرته إلى صورة.最终版本:رغم التقدم الملحوظ الذي تحقق مؤخرًا في نماذج التوليد، لا يزال إنشاء صور تصور تخطيطات معقدة ومتعددة للأجسام مشكلة صعبة. من بين التحديات الأساسية تنوع المظهر الذي قد تتمتع به جسمة معينة وما ينتج عن ذلك من مجموعة هائلة من الصور المتسقة مع تخطيط محدد. لمواجهة هذه التحديات، نقترح نهجًا جديدًا لتوليد الصور بناءً على التخطيط؛ نطلق عليه اسم Layout2Im. بالنظر إلى التخطيط الفضائي الخشن (المربعات الحدودية + فئات الأجسام)، يمكن لنموذجنا إنشاء مجموعة من الصور الواقعية التي تحتوي على الأجسام الصحيحة في المواقع المرغوبة. يتم فصل تمثيل كل جسم إلى جزء محدد (الفئة) وجزء غير محدد (المظهر). يتم ترميز الفئة باستخدام غرس الكلمات بينما يتم استخلاص المظهر إلى متجه ذي أبعاد منخفضة يتم اختياره عشوائيًا من توزيع طبيعي. يتم تركيب تمثيلات الأجسام الفردية باستخدام LSTM الإقiasmية للحصول على ترميز للتخطيط الكامل ومن ثم فك شفرته إلى صورة. تم تقديم عدة حدود خسارة لتشجيع إنشاء دقيق ومتنوع. يتفوق النموذج المقترح Layout2Im بشكل كبير على أفضل ما سبقه في هذا المجال حيث رفع أفضل درجة تم الإبلاغ عنها في اختبار Inception بنسبة 24.66٪ و28.57٪ على قاعدتي بيانات COCO-Stuff وVisual Genome الشديدتين التعقيد، على التوالي. كما أن التجارب الواسعة أيضًا أثبتت قدرة طريقتنا على إنشاء صور معقدة ومتنوعة تحتوي على أجسام متعددة.