Command Palette
Search for a command to run...
نموذج انحداري يتفوق على التبديد: لاما لإنجاز توليد الصور قابل للتوسع
Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

الملخص
نقدّم نموذج LlamaGen، وهي عائلة جديدة من نماذج توليد الصور، تطبّق مبدأ "التوقع التالي للرمز" الأصلي الخاص بنماذج اللغة الكبيرة (LLMs) على مجال توليد الصور البصرية. يُعد هذا النموذج إجابة إيجابية على السؤال حول إمكانية تحقيق أداء متميز في توليد الصور باستخدام نماذج توليد تسلسلي بسيطة (مثل Llama)، دون افتراضات مسبقة (inductive biases) مخصصة للإشارات البصرية، شريطة أن تُ-scalable بشكل مناسب. نعيد تقييم مساحات التصميم الخاصة بمحولات الصور (image tokenizers)، وخصائص التوسع (scalability) لنماذج توليد الصور، بالإضافة إلى جودة بيانات التدريب المستخدمة. وقد أسفر هذا الاستكشاف عن النتائج التالية:(1) محول صور بمعامل تقليل (downsample ratio) قدره 16، ونسبة جودة إعادة البناء (reconstruction quality) تبلغ 0.94 rFID، واستخدام للكودبووك (codebook) بنسبة 97% على معيار ImageNet.(2) سلسلة من نماذج توليد الصور المشروطة بالفئة، تتراوح أعداد معاملاتها بين 111 مليون و3.1 مليار، وتحقق مؤشر FID قدره 2.18 على معيار ImageNet بحجم 256×256، متفوّقةً على نماذج التشتت الشهيرة مثل LDM وDiT.(3) نموذج توليد صور مشروط بالنص بحجم 775 مليون معامل، تم تدريبه على مرحلتين باستخدام بيانات LAION-COCO والصور ذات جودة فنية عالية، ويُظهر أداءً تنافسيًا في جودة الصور ودقة التوافق مع النص.(4) نؤكد فعالية أطر خدمة نماذج لغة كبيرة (LLM serving frameworks) في تحسين سرعة الاستدلال (inference speed) لنماذج توليد الصور، حيث تم تحقيق تسريع في الأداء يتراوح بين 326% و414%.نُطلق جميع النماذج والكود المصدري لدعم المجتمع المفتوح المصدر في مجالات توليد الصور والأساسيات متعددة الوسائط (multimodal foundation models).
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| image-generation-on-imagenet-256x256 | LlamaGen | FID: 2.18 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.