استقرار الفضاء الكامن لنموذج الصور التلقائي التتابعي: منظور موحد

النماذج الجينية للصور المستندة إلى المتغيرات الكامنة، مثل نماذج الانتشار الكامن (LDMs) ونماذج الصور المقنعة (MIMs)، قد حققت نجاحًا ملحوظًا في مهام توليد الصور. غالبًا ما تعتمد هذه النماذج على الترميزات الذاتية الإعادة مثل VQGAN أو VAE لتحويل البكسل إلى فضاء كامن أكثر ضغطًا وتعلم توزيع البيانات في هذا الفضاء الكامن بدلاً من مباشرة من البكسل. ومع ذلك، فإن هذه الممارسة تثير سؤالًا مهمًا: هل هي حقًا الخيار الأمثل؟ كرد على ذلك، نبدأ بملاحظة مثيرة للاهتمام: رغم مشاركتها لنفس الفضاء الكامن، فإن النماذج التتابعة تتأخر بشكل كبير عن LDMs و MIMs في توليد الصور. هذا الاكتشاف يتعارض بشكل حاد مع مجال معالجة اللغة الطبيعية (NLP)، حيث أثبتت النموذج التتابعي GPT وجودها بقوة. لمعالجة هذا التباين، نقدم وجهة نظر موحدة حول العلاقة بين الفضاء الكامن والنماذج الجينية، مع التركيز على استقرار الفضاء الكامن في توليد الصور. بالإضافة إلى ذلك، نقترح مُقطِّع صور متقطع بسيط ولكن فعال لاستقرار الفضاء الكامن في توليد الصور. تظهر النتائج التجريبية أن استخدام مُقطِّعنا (DiGIT) في النمذجة التتابعة للصور يفيد كلًّا من فهم الصور وتوليدها باستخدام مبدأ التنبؤ بالرمز التالي، وهو أمر جوهري بسيط بالنسبة لنماذج GPT ولكنه صعب بالنسبة للنماذج الجينية الأخرى. وبشكل ملفت للنظر، ولأول مرة، يتفوق نموذج تتابعي على طراز GPT في الصور على LDMs، كما أنه يظهر تحسينات كبيرة مشابهة لتلك التي يحققها GPT عند زيادة حجم النموذج. تحمل نتائجنا الضوء على إمكانات الفضاء الكامن المُحسَّن والدمج بين تقسيم الرموز المتقطعة في تعزيز قدرات النماذج الجينية للصور. يمكن الوصول إلى الشيفرة البرمجية عبر الرابط https://github.com/DAMO-NLP-SG/DiGIT.