HyperAIHyperAI
منذ 17 أيام

نماذج الاتساق

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever
نماذج الاتساق
الملخص

لقد ساهمت نماذج الانتشار (Diffusion models) في تقدم كبير في مجالات إنشاء الصور والصوت والفيديو، لكنها تعتمد على عملية عينة تكرارية تؤدي إلى توليد بطيء. ولتجاوز هذه القيود، نقترح نماذج الاتساق (consistency models)، وهي عائلة جديدة من النماذج التي تُولّد عينات عالية الجودة من خلال ربط الضوضاء مباشرةً بالبيانات. تدعم هذه النماذج التوليد السريع في خطوة واحدة بشكل مُصمم مسبقًا، مع الحفاظ على إمكانية استخدام العينات متعددة الخطوات لموازنة استهلاك الحوسبة مقابل جودة العينة. كما تدعم التحرير الصفرية للبيانات، مثل إصلاح الصور (image inpainting) وترميز الألوان (colorization) وتحسين الدقة (super-resolution)، دون الحاجة إلى تدريب صريح على هذه المهام. يمكن تدريب نماذج الاتساق إما من خلال استخلاص نماذج الانتشار المُدرّبة مسبقًا، أو كنماذج توليدية مستقلة تمامًا. من خلال تجارب واسعة، نُظهر أن نماذج الاتساق تتفوّق على التقنيات الحالية لاستخلاص نماذج الانتشار في عمليات العينة ذات الخطوة الواحدة والقليلة، وتُحقّق أفضل نتائج مُحقّقة حاليًا في مؤشر FID، حيث بلغت 3.55 على CIFAR-10 و6.20 على ImageNet 64x64 في التوليد في خطوة واحدة. وعند تدريبها بشكل منفصل، تصبح نماذج الاتساق عائلة جديدة من النماذج التوليدية التي تتفوّق على النماذج التوليدية الحالية ذات الخطوة الواحدة وغير المُنافسة (non-adversarial) في المعايير القياسية مثل CIFAR-10 وImageNet 64x64 وLSUN 256x256.

نماذج الاتساق | أحدث الأوراق البحثية | HyperAI