HyperAIHyperAI

Command Palette

Search for a command to run...

اللوحة: نماذج التفتيت من الصورة إلى الصورة

Chitwan Saharia William Chan Huiwen Chang Chris A Lee Jonathan Ho Tim Salimans David J Fleet Mohammad Norouzi

الملخص

يقوم هذا البحث بتطوير إطار عمل موحد للترجمة من صورة إلى صورة يعتمد على نماذج الانتشار الشرطية ويقيم هذا الإطار في أربع مهام صعبة للترجمة من صورة إلى صورة، وهي التلوين، وإعادة الرسم، وتوسيع الحدود، وإعادة ترميز الصور JPEG. يتفوق تنفيذنا البسيط لنماذج الانتشار من صورة إلى صورة على النماذج القوية لشبكات التوليف العصبية المضادة (GAN) والأنموذج الأساسي للانحدار في جميع المهام، دون الحاجة إلى ضبط متغيرات الأداء الخاصة بالمهام أو تعديل الهيكلية أو أي خسارة مساعدة أو تقنيات جديدة معقدة. نكشف عن تأثير استخدام الخسارة L2 مقابل L1 في هدف الانتشار للتقليل من الضوضاء على تنوع العينات، ونوضح أهمية التركيز الذاتي في هيكل الشبكة العصبية من خلال دراسات تجريبية. ومن الجدير بالذكر أننا ندعو إلى بروتوكول تقييم موحد يستند إلى ImageNet، مع تقييم بشري ودرجات جودة العينات (FID، درجة Inception، دقة تصنيف ResNet-50 المدرب مسبقًا، والمسافة الإدراكية مقابل الصور الأصلية). نتوقع أن يلعب هذا البروتوكول للتقييم الموحد دورًا في تقدم أبحاث الترجمة من صورة إلى صورة. وأخيرًا، نظهر أن نموذج الانتشار العام الذي يقوم بعدة مهام يؤدي بنفس المستوى أو أفضل من النماذج المتخصصة التي تقوم بمهام معينة. يمكنكم زيارة https://diffusion-palette.github.io لمراجعة نظرة عامة على النتائج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp