منذ 8 أشهر

الملخص

تم تصميم الترانسفورمرات لتعلم التفاعلات طويلة المدى في البيانات المتسلسلة، وهي تستمر في إظهار نتائج رائدة على مجموعة متنوعة من المهام. بخلاف الشبكات العصبية التلافيفية (CNNs)، لا تحتوي الترانسفورمرات على أي تحيز استقرائي يفضل التفاعلات المحلية. هذا يجعلها ذات قدرة تعبيرية عالية، ولكنه أيضًا يجعلها غير قابلة للحساب بشكل عملي عند التعامل مع متسلسلات طويلة مثل الصور ذات الدقة العالية. نوضح كيف يمكن دمج فعالية التحيز الاستقرائي للشبكات العصبية التلافيفية مع القدرة التعبيرية للترانسفورمرات لتمكينها من نمذجة وynthesis الصور ذات الدقة العالية. نبين كيفية (i) استخدام الشبكات العصبية التلافيفية لتعلم مفردات غنية بالسياق للعناصر المرئية في الصورة، ومن ثم (ii) الاستفادة من الترانسفورمرات لنمذجة تركيب هذه العناصر داخل الصور ذات الدقة العالية بكفاءة. يمكن تطبيق نهجنا بسهولة على مهام التركيب المشروطة، حيث يمكن لكل من المعلومات غير المكانية، مثل فئات الأشياء، والمعلومات المكانية، مثل التقسيمات، السيطرة على الصورة المنتجة. بشكل خاص، نقدم أول النتائج حول التركيب المعين سيميائيًا للصور ذات الميجابكسل باستخدام الترانسفورمرات ونحصل على أفضل النتائج بين النماذج الذاتية الانحدارية على ImageNet المشروطة بالفئات. يمكن العثور على الكود والنماذج المدربة مسبقًا فيhttps://github.com/CompVis/taming-transformers .

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار