HyperAIHyperAI

Command Palette

Search for a command to run...

DiffiT: نماذج التحويل البصري التمايزية لتوليد الصور

Ali Hatamizadeh Jiaming Song Guilin Liu Jan Kautz Arash Vahdat

الملخص

لقد حققت نماذج الانتشار (Diffusion models) بأدائها القوي في التعبير عن الأنماط وجودة العينات العالية أداءً متميزًا (SOTA) في المجال التوليدي. كما أظهرت نموذج المحول البصري (Vision Transformer - ViT)، الذي يُعد رائدًا في هذا المجال، قدرات نمذجة قوية وقابلية للتوسع، خاصة في المهام المتعلقة بالتعرف على الصور. في هذه الورقة، ندرس فعالية نماذج ViT في التعلم التوليدي القائم على الانتشار، ونُقدِّم نموذجًا جديدًا يُسمى "محول البصرية للانتشار" (Diffusion Vision Transformers - DiffiT). بشكل خاص، نقترح منهجية للتحكم الدقيق في عملية إزالة الضوضاء، ونُقدِّم آلية الانتباه الذاتي متعدد الرؤوس المُعتمدَة على الزمن (Time-dependant Multihead Self Attention - TMSA). أظهر نموذج DiffiT فعالية مذهلة في إنتاج صور عالية الدقة، مع كفاءة متفوقة في استخدام المعلمات. كما قمنا بتطوير نماذج DiffiT في الفضاء المُتخفي (Latent) والفضاء الصوري (Image)، وبيّنا أداءً متميزًا (SOTA) في مجموعة متنوعة من مهام التوليد المشروط بالفئة وغير المشروط، وبمختلف الدقة. حقق نموذج DiffiT في الفضاء المُتخفي سجلًا جديدًا في معيار FID بلغ 1.73 على مجموعة بيانات ImageNet256، مع تقليل بنسبة 19.85% و16.88% في عدد المعلمات مقارنةً بنماذج الانتشار القائمة على المحولات الأخرى مثل MDT وDiT، على التوالي. الكود: https://github.com/NVlabs/DiffiT


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DiffiT: نماذج التحويل البصري التمايزية لتوليد الصور | مستندات | HyperAI