HyperAIHyperAI

Command Palette

Search for a command to run...

L-Verse: التوليد المُتَعَاكِس بَيْن الصُّورَة والنَّص

Taehoon Kim; Gwangmo Song; Sihaeng Lee; Sangyun Kim; Yewon Seo; Soonyoung Lee; Seung Hwan Kim; Honglak Lee; Kyunghoon Bae

الملخص

تجاوزت النماذج التحويلية (transformers) مجرد تعلم التفاعلات طويلة المدى للغة الطبيعية وأصبحت المعيار الفعلي لعديد من مهام الرؤية بفضل قوتها وقابلها للتوسع. وبشكل خاص في المهام متعددة الوسائط بين الصورة والنص، يتم استخدام الترميز الكمي للمتغيّرات ذات الانتشار العكسي (VQ-VAEs) على نطاق واسع لتحويل صورة RGB الخام إلى سلسلة من متجهات الخصائص. لتحقيق الاستفادة الأفضل من الارتباط بين الصورة والنص، نقترح L-Verse، وهي هندسة جديدة تتكون من ترميز متغير معزز بالخصائص (AugVAE) ونموذج تحويلي تلقائي عكسي ثنائي الاتجاه (BiART) لتوليد النص من الصورة وتوليد الصورة من النص. يظهر AugVAE أداء إعادة بناء رائد على مجموعة اختبار ImageNet1K التحققية، بالإضافة إلى متانته أمام الصور غير المعروفة في البيئة الحقيقية. على عكس النماذج الأخرى، يمكن لـ BiART تمييز الصورة (أو النص) كمرجع شرطي وهدف للتوليد. يمكن استخدام L-Verse مباشرة لتوليد النص من الصورة أو توليد الصورة من النص دون الحاجة لأي تعديل دقيق أو إطار إضافي لاكتشاف الأشياء. في التجارب الكمية والنوعية، أظهر L-Verse نتائج مثيرة للإعجاب مقابل الأساليب السابقة في كلٍّ من توليد النص من الصورة وتوليد الصورة من النص على MS-COCO Captions. كما نقيم قابلية توسع هندسة L-Verse على Conceptual Captions ونقدم نتيجة أولى لتعلم التمثيل الثنائي بين الرؤية واللغة في المجال العام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
L-Verse: التوليد المُتَعَاكِس بَيْن الصُّورَة والنَّص | مستندات | HyperAI