شبكات التوليد المتنافسة الموحدة للترجمة الصورية القابلة للتحكم

نقترح شبكة مولدة متنافسة (GAN) موحدة للترجمة الصورية القابلة للتحكم، أي نقل صورة من مجال المصدر إلى مجال الهدف بمساعدة الهياكل القابلة للتحكم. بالإضافة إلى التحكم في صورة مرجعية، نوضح كيف يمكن للنموذج توليد صور مشروطة بهياكل قابلة للتحكم، مثل علامات الفئات، نقاط الكائنات، هيكل العظمي البشري، وخرائط المعاني المشهدية. يتكون النموذج المقترح من جenerator واحد وdiscriminator يأخذ الصورة المشروطة والهياكل الهدف القابلة للتحكم كمدخلات. بهذه الطريقة، يمكن أن توفر الصورة المشروطة المعلومات المرتبطة بالمظهر بينما توفر الهياكل القابلة للتحكم المعلومات الهيكلية لتوليد النتيجة المستهدفة. علاوة على ذلك، يتعلم نموذجنا الترجمة الصورية من خلال ثلاثة خسائر جديدة وهي: خسارة اللون (color loss)، خسارة الدوران المتسقة الموجهة بالهياكل القابلة للتحكم (controllable structure guided cycle-consistency loss)، وخسارة الحفاظ على المحتوى الذاتي الموجهة بالهياكل القابلة للتحكم (controllable structure guided self-content preserving loss). كما نقدم مقياس فريشيه لمسافة ResNet (FRD) لتقييم جودة الصور المتولدة. أظهرت التجارب على مهمتين صعبتين في الترجمة الصورية، وهما ترجمة الإشارات اليدوية وإعادة ترجمة الصور بين وجهات النظر المختلفة، أن نموذجنا ينتج نتائج مقنعة ويتفوق بشكل كبير على الأساليب الرائدة الأخرى في كلتا المهمتين. وفي الوقت نفسه، يعتبر الإطار المقترح حلاً موحدًا يمكن تطبيقه لحل مهام أخرى في الترجمة الصورية الموجهة بالهياكل القابلة للتحكم مثل ترجمة التعبيرات الوجهية بمساعدة المعالم وتوليد صور الأشخاص بمساعدة النقاط الرئيسية. حسب علم us، نحن أول من جعل إطار GAN يعمل على جميع هذه المهام في الترجمة الصورية الموجهة بالهياكل القابلة للتحكم. يمكن الحصول على الكود من https://github.com/Ha0Tang/GestureGAN.请注意,为了更好地符合阿拉伯语的表达习惯,我做了一些细微的调整。例如,“generator”和“discriminator”在翻译中被直接使用了英文术语,因为这些术语在阿拉伯语科技文献中通常也是以英文形式出现的。此外,一些长句被拆分成了较短的句子,以便更容易理解。