HyperAIHyperAI

Command Palette

Search for a command to run...

ترويض الترانسفورمرات لynthesis الصور عالية الدقة

Esser Patrick ; Rombach Robin ; Ommer Björn

الملخص

تم تصميم الترانسفورمرات لتعلم التفاعلات طويلة المدى في البيانات المتسلسلة، وهي تستمر في إظهار نتائج رائدة على مجموعة متنوعة من المهام. بخلاف الشبكات العصبية التلافيفية (CNNs)، لا تحتوي الترانسفورمرات على أي تحيز استقرائي يفضل التفاعلات المحلية. هذا يجعلها ذات قدرة تعبيرية عالية، ولكنه أيضًا يجعلها غير قابلة للحساب بشكل عملي عند التعامل مع متسلسلات طويلة مثل الصور ذات الدقة العالية. نوضح كيف يمكن دمج فعالية التحيز الاستقرائي للشبكات العصبية التلافيفية مع القدرة التعبيرية للترانسفورمرات لتمكينها من نمذجة وynthesis الصور ذات الدقة العالية. نبين كيفية (i) استخدام الشبكات العصبية التلافيفية لتعلم مفردات غنية بالسياق للعناصر المرئية في الصورة، ومن ثم (ii) الاستفادة من الترانسفورمرات لنمذجة تركيب هذه العناصر داخل الصور ذات الدقة العالية بكفاءة. يمكن تطبيق نهجنا بسهولة على مهام التركيب المشروطة، حيث يمكن لكل من المعلومات غير المكانية، مثل فئات الأشياء، والمعلومات المكانية، مثل التقسيمات، السيطرة على الصورة المنتجة. بشكل خاص، نقدم أول النتائج حول التركيب المعين سيميائيًا للصور ذات الميجابكسل باستخدام الترانسفورمرات ونحصل على أفضل النتائج بين النماذج الذاتية الانحدارية على ImageNet المشروطة بالفئات. يمكن العثور على الكود والنماذج المدربة مسبقًا فيhttps://github.com/CompVis/taming-transformers .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp