HyperAIHyperAI

Command Palette

Search for a command to run...

الاستيعاب التلقائي للصورة باستخدام التكميم المتراكم

Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han

الملخص

بالنسبة للنمذجة التلقائية التكرارية (AR) للصور عالية الدقة، يُمثل التكميم المتجهي (VQ) الصورة كسلسلة من الرموز المنفصلة. ويعتبر طول السلسلة القصير أمرًا مهمًا بالنسبة لنموذج AR لتقليل التكاليف الحسابية المرتبطة بمراعاة التفاعلات على المدى الطويل بين الرموز. ومع ذلك، نُقدّم افتراضًا بأن النماذج السابقة للتكميم المتجهي لا يمكنها تقليل طول سلسلة الرموز مع إنتاج صور عالية الولادة في الوقت نفسه، من حيث التوازن بين معدل النقل والانحراف. في هذه الدراسة، نقترح إطارًا مكونًا من مرحلتين، يتضمن نموذج VAE المُكمَّم بالباقية (RQ-VAE) ونموذج RQ-Transformer، لتمكين إنتاج صور عالية الدقة بشكل فعّال. وبفرض حجم دفتر رموز ثابت، يمكن لـ RQ-VAE تقريب خريطة الميزات للصورة بدقة عالية، وتمثيل الصورة كخريطة متراكبة من الرموز المنفصلة. ثم يتعلم نموذج RQ-Transformer التنبؤ بمتجه الميزة المُكمَّم في الموقع التالي من خلال التنبؤ بالطبقة التالية من الرموز. وبفضل التقريب الدقيق الذي يوفره RQ-VAE، يمكننا تمثيل صورة بحجم 256×256 كخريطة ميزات بدقة 8×8، مما يمكّن نموذج RQ-Transformer من تقليل التكاليف الحسابية بشكل فعّال. في النتيجة، يتفوق إطارنا على النماذج التلقائية التكرارية الحالية في مجموعة متنوعة من المعايير المعيارية للإنتاج الصوري غير الشرطي والشرطي. كما يتميز نهجنا بسرعة عينة أسرع بشكل ملحوظ مقارنة بالنماذج التلقائية التكرارية السابقة، مما يسمح بإنتاج صور عالية الجودة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp