HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

افهم قبل أن تُولِد: تدريب ذاتي التوجيه لتخليق الصور التلقائي التسلسلي

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

افهم قبل أن تُولِد: تدريب ذاتي التوجيه لتخليق الصور التلقائي التسلسلي

الملخص

أظهرت دراسات حديثة الأهمية البالغة لتمثيلات بصرية عالية الجودة في توليد الصور، وسلطت الضوء على القيود التي تواجه النماذج التوليدية في فهم الصور. وتكافح النماذج التلقائية (التي تم تصميمها أصلاً للغة الطبيعية) بوجه خاص أمام تحديات مماثلة. وفي هذا العمل، نقدّم أول دراسة منهجية لفهم الآليات المتعلقة بتطبيق منهجية التنبؤ بالرمز التالي في المجال البصري. ونحدد ثلاث خصائص رئيسية تعيق تعلّم المعاني البصرية عالية المستوى: الاعتماد المحلي والشرطية، وعدم اتساق المعاني بين الخطوات، ونقص التحويل المكاني. ونُظهر أن هذه المشكلات يمكن التغلب عليها بشكل فعّال من خلال إدخال أهداف تدريب ذاتي-مُوجَّه (self-supervised objectives) أثناء التدريب، ما يؤدي إلى إنشاء إطار تدريب جديد يُسمى "التدريب المُوجَّه ذاتياً للنماذج التلقائية" (Self-guided Training for AutoRegressive models, ST-AR). وبلا اعتماد على نماذج تمثيل مُدرَّبة مسبقاً، يُحسّن ST-AR بشكل كبير قدرة النماذج التلقائية على فهم الصور، مما يؤدي إلى تحسين جودة التوليد. وبشكل خاص، يحقّق ST-AR تحسّناً بنسبة 42% في مؤشر FID لنموذج LlamaGen-L، و49% لنموذج LlamaGen-XL، مع الحفاظ على نفس استراتيجية العينة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
افهم قبل أن تُولِد: تدريب ذاتي التوجيه لتخليق الصور التلقائي التسلسلي | الأوراق البحثية | HyperAI