اللوحة: نماذج التفتيت من الصورة إلى الصورة

يقوم هذا البحث بتطوير إطار عمل موحد للترجمة من صورة إلى صورة يعتمد على نماذج الانتشار الشرطية ويقيم هذا الإطار في أربع مهام صعبة للترجمة من صورة إلى صورة، وهي التلوين، وإعادة الرسم، وتوسيع الحدود، وإعادة ترميز الصور JPEG. يتفوق تنفيذنا البسيط لنماذج الانتشار من صورة إلى صورة على النماذج القوية لشبكات التوليف العصبية المضادة (GAN) والأنموذج الأساسي للانحدار في جميع المهام، دون الحاجة إلى ضبط متغيرات الأداء الخاصة بالمهام أو تعديل الهيكلية أو أي خسارة مساعدة أو تقنيات جديدة معقدة. نكشف عن تأثير استخدام الخسارة L2 مقابل L1 في هدف الانتشار للتقليل من الضوضاء على تنوع العينات، ونوضح أهمية التركيز الذاتي في هيكل الشبكة العصبية من خلال دراسات تجريبية. ومن الجدير بالذكر أننا ندعو إلى بروتوكول تقييم موحد يستند إلى ImageNet، مع تقييم بشري ودرجات جودة العينات (FID، درجة Inception، دقة تصنيف ResNet-50 المدرب مسبقًا، والمسافة الإدراكية مقابل الصور الأصلية). نتوقع أن يلعب هذا البروتوكول للتقييم الموحد دورًا في تقدم أبحاث الترجمة من صورة إلى صورة. وأخيرًا، نظهر أن نموذج الانتشار العام الذي يقوم بعدة مهام يؤدي بنفس المستوى أو أفضل من النماذج المتخصصة التي تقوم بمهام معينة. يمكنكم زيارة https://diffusion-palette.github.io لمراجعة نظرة عامة على النتائج.