منذ 6 أشهر

الملخص

تم مؤخرًا تقديم النماذج الموحدة (Consistency models) لتسريع عملية العينة من النماذج التبادلية (diffusion models) من خلال التنبؤ مباشرةً بالحل (أي البيانات) الخاص بمعادلة التدفق الاحتمالي (PF ODE) من الضوضاء الابتدائية. ومع ذلك، يتطلب تدريب النماذج الموحدة تعلُّم خريطة جميع النقاط الوسيطة على طول مسارات معادلة التدفق الاحتمالي إلى نقاطها النهائية المقابلة. هذه المهمة أصعب بكثير من الهدف النهائي للإنتاج في خطوة واحدة، والذي يقتصر فقط على خريطة الضوضاء إلى البيانات في معادلة التدفق الاحتمالي. وجدنا تجريبيًا أن هذا النموذج التدريبي يحد من أداء النماذج الموحدة في الإنتاج في خطوة واحدة. لحل هذه المشكلة، قمنا بتوسيع تدريب النموذج الموحد إلى مدى زمني مقطوع (truncated time range)، مما يسمح للنموذج بتجاهل مهام إزالة الضوضاء في المراحل المبكرة وتركيز قدرته على عملية الإنتاج. واقترحنا صيغة جديدة لدالة التوافق (consistency function) وعملية تدريب مزدوجة الطور تمنع التدريب على المدى الزمني المقطوع من الانهيار إلى حل تافه. أظهرت التجارب على مجموعتي بيانات CIFAR-10 وImageNet بحجم $64\times64$ أن طريقتنا تحقق أداءً أفضل في مؤشرات FID للإنتاج في خطوة واحدة وخطوتين مقارنةً بالنماذج الموحدة الرائدة مثل iCT-deep، مع استخدام شبكات أصغر بنسبة أكثر من 2×. صفحة المشروع: https://truncated-cm.github.io/

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار