Command Palette
Search for a command to run...
افهم قبل أن تُولِد: تدريب ذاتي التوجيه لتخليق الصور التلقائي التسلسلي
Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

الملخص
أظهرت دراسات حديثة الأهمية البالغة لتمثيلات بصرية عالية الجودة في توليد الصور، وسلطت الضوء على القيود التي تواجه النماذج التوليدية في فهم الصور. وتكافح النماذج التلقائية (التي تم تصميمها أصلاً للغة الطبيعية) بوجه خاص أمام تحديات مماثلة. وفي هذا العمل، نقدّم أول دراسة منهجية لفهم الآليات المتعلقة بتطبيق منهجية التنبؤ بالرمز التالي في المجال البصري. ونحدد ثلاث خصائص رئيسية تعيق تعلّم المعاني البصرية عالية المستوى: الاعتماد المحلي والشرطية، وعدم اتساق المعاني بين الخطوات، ونقص التحويل المكاني. ونُظهر أن هذه المشكلات يمكن التغلب عليها بشكل فعّال من خلال إدخال أهداف تدريب ذاتي-مُوجَّه (self-supervised objectives) أثناء التدريب، ما يؤدي إلى إنشاء إطار تدريب جديد يُسمى "التدريب المُوجَّه ذاتياً للنماذج التلقائية" (Self-guided Training for AutoRegressive models, ST-AR). وبلا اعتماد على نماذج تمثيل مُدرَّبة مسبقاً، يُحسّن ST-AR بشكل كبير قدرة النماذج التلقائية على فهم الصور، مما يؤدي إلى تحسين جودة التوليد. وبشكل خاص، يحقّق ST-AR تحسّناً بنسبة 42% في مؤشر FID لنموذج LlamaGen-L، و49% لنموذج LlamaGen-XL، مع الحفاظ على نفس استراتيجية العينة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.