HyperAIHyperAI
منذ 2 أشهر

ترويض الترانسفورمرات لynthesis الصور عالية الدقة

Esser, Patrick ; Rombach, Robin ; Ommer, Björn
ترويض الترانسفورمرات لynthesis الصور عالية الدقة
الملخص

تم تصميم الترانسفورمرات لتعلم التفاعلات طويلة المدى في البيانات المتسلسلة، وهي تستمر في إظهار نتائج رائدة على مجموعة متنوعة من المهام. بخلاف الشبكات العصبية التلافيفية (CNNs)، لا تحتوي الترانسفورمرات على أي تحيز استقرائي يفضل التفاعلات المحلية. هذا يجعلها ذات قدرة تعبيرية عالية، ولكنه أيضًا يجعلها غير قابلة للحساب بشكل عملي عند التعامل مع متسلسلات طويلة مثل الصور ذات الدقة العالية. نوضح كيف يمكن دمج فعالية التحيز الاستقرائي للشبكات العصبية التلافيفية مع القدرة التعبيرية للترانسفورمرات لتمكينها من نمذجة وynthesis الصور ذات الدقة العالية. نبين كيفية (i) استخدام الشبكات العصبية التلافيفية لتعلم مفردات غنية بالسياق للعناصر المرئية في الصورة، ومن ثم (ii) الاستفادة من الترانسفورمرات لنمذجة تركيب هذه العناصر داخل الصور ذات الدقة العالية بكفاءة. يمكن تطبيق نهجنا بسهولة على مهام التركيب المشروطة، حيث يمكن لكل من المعلومات غير المكانية، مثل فئات الأشياء، والمعلومات المكانية، مثل التقسيمات، السيطرة على الصورة المنتجة. بشكل خاص، نقدم أول النتائج حول التركيب المعين سيميائيًا للصور ذات الميجابكسل باستخدام الترانسفورمرات ونحصل على أفضل النتائج بين النماذج الذاتية الانحدارية على ImageNet المشروطة بالفئات. يمكن العثور على الكود والنماذج المدربة مسبقًا فيhttps://github.com/CompVis/taming-transformers .

ترويض الترانسفورمرات لynthesis الصور عالية الدقة | أحدث الأوراق البحثية | HyperAI