منذ 2 أشهر

الملخص

يتطلب إنتاج الصور بشكل متسق الحفاظ بدقة على الهويات والأسلوب والاتساق المنطقي عبر صور متعددة، وهو أمر ضروري لتطبيقات مثل سرد القصص وتصميم الشخصيات. تعاني النماذج التي تعتمد على التدريب المراقب من هذه المهمة بسبب نقص البيانات الكبيرة الحجم التي تُسجّل الاتساق البصري، بالإضافة إلى التعقيد الناتج عن نمذجة تفضيلات الإنسان البصرية. في هذه الورقة، نقترح أن التعلم التعزيزي (RL) يُعد بديلاً واعداً من خلال تمكين النماذج من تعلّم معايير بصرية معقدة وذاتية بطريقة لا تعتمد على البيانات. لتحقيق ذلك، نقدّم إطار عمل شاملًا يُسمى PaCo-RL، يدمج نموذج مكافأة متخصص للاتساق مع خوارزمية تعلم تعزيزي فعّالة. يتكوّن المكوّن الأول، PaCo-Reward، من مُقيّم ثنائي للاتساق تم تدريبه على مجموعة بيانات كبيرة تم بناؤها عبر زوجية تلقائية للأشكال الفرعية. ويقيّم الاتساق من خلال آلية تقييم توليدية ذاتية التسلسل، محسّنة بتعليمات واعية بالمهام وأسباب استنتاجية (CoT). أما المكوّن الثاني، PaCo-GRPO، فيعتمد استراتيجية تحسين منفصلة عن الدقة (resolution-decoupled optimization) لتقليل تكاليف التعلم التعزيزي بشكل كبير، إلى جانب آلية تجميع متعددة المكافآت مُعدّلة باستخدام اللوغاريتم (log-tamed) لضمان تحسين مكافآت متوازنة ومستقرة. أظهرت التجارب الواسعة على المهمتين الفرعيتين الممثلتين نتائج ملموسة: حيث يُحسّن PaCo-Reward بشكل كبير مواءمة النموذج مع إدراك البشر للاتساق البصري، بينما يحقق PaCo-GRPO أفضل أداء في الاتساق مقارنة بالأساليب السابقة، مع تحسين كفاءة التدريب واستقراره. تُبرز هذه النتائج معًا الإمكانات الكبيرة لـ PaCo-RL كحل عملي وقابل للتوسع في مجال إنتاج الصور المتسقة. يمكن الاطلاع على صفحة المشروع عبر الرابط التالي: https://x-gengroup.github.io/HomePage_PaCo-RL/.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PaCo-RL: تطوير التعلم التعزيزي لإنشاء صور متسقة باستخدام نمذجة المكافأة الزوجية

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PaCo-RL: تطوير التعلم التعزيزي لإنشاء صور متسقة باستخدام نمذجة المكافأة الزوجية

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PaCo-RL: تطوير التعلم التعزيزي لإنشاء صور متسقة باستخدام نمذجة المكافأة الزوجية

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters