Command Palette
Search for a command to run...
اللوحة: نماذج التفتيت من الصورة إلى الصورة
اللوحة: نماذج التفتيت من الصورة إلى الصورة
Chitwan Saharia William Chan Huiwen Chang Chris A Lee Jonathan Ho Tim Salimans David J Fleet Mohammad Norouzi
الملخص
يقوم هذا البحث بتطوير إطار عمل موحد للترجمة من صورة إلى صورة يعتمد على نماذج الانتشار الشرطية ويقيم هذا الإطار في أربع مهام صعبة للترجمة من صورة إلى صورة، وهي التلوين، وإعادة الرسم، وتوسيع الحدود، وإعادة ترميز الصور JPEG. يتفوق تنفيذنا البسيط لنماذج الانتشار من صورة إلى صورة على النماذج القوية لشبكات التوليف العصبية المضادة (GAN) والأنموذج الأساسي للانحدار في جميع المهام، دون الحاجة إلى ضبط متغيرات الأداء الخاصة بالمهام أو تعديل الهيكلية أو أي خسارة مساعدة أو تقنيات جديدة معقدة. نكشف عن تأثير استخدام الخسارة L2 مقابل L1 في هدف الانتشار للتقليل من الضوضاء على تنوع العينات، ونوضح أهمية التركيز الذاتي في هيكل الشبكة العصبية من خلال دراسات تجريبية. ومن الجدير بالذكر أننا ندعو إلى بروتوكول تقييم موحد يستند إلى ImageNet، مع تقييم بشري ودرجات جودة العينات (FID، درجة Inception، دقة تصنيف ResNet-50 المدرب مسبقًا، والمسافة الإدراكية مقابل الصور الأصلية). نتوقع أن يلعب هذا البروتوكول للتقييم الموحد دورًا في تقدم أبحاث الترجمة من صورة إلى صورة. وأخيرًا، نظهر أن نموذج الانتشار العام الذي يقوم بعدة مهام يؤدي بنفس المستوى أو أفضل من النماذج المتخصصة التي تقوم بمهام معينة. يمكنكم زيارة https://diffusion-palette.github.io لمراجعة نظرة عامة على النتائج.