HyperAIHyperAI
منذ 2 أشهر

L-Verse: التوليد المُتَعَاكِس بَيْن الصُّورَة والنَّص

Taehoon Kim; Gwangmo Song; Sihaeng Lee; Sangyun Kim; Yewon Seo; Soonyoung Lee; Seung Hwan Kim; Honglak Lee; Kyunghoon Bae
L-Verse: التوليد المُتَعَاكِس بَيْن الصُّورَة والنَّص
الملخص

تجاوزت النماذج التحويلية (transformers) مجرد تعلم التفاعلات طويلة المدى للغة الطبيعية وأصبحت المعيار الفعلي لعديد من مهام الرؤية بفضل قوتها وقابلها للتوسع. وبشكل خاص في المهام متعددة الوسائط بين الصورة والنص، يتم استخدام الترميز الكمي للمتغيّرات ذات الانتشار العكسي (VQ-VAEs) على نطاق واسع لتحويل صورة RGB الخام إلى سلسلة من متجهات الخصائص. لتحقيق الاستفادة الأفضل من الارتباط بين الصورة والنص، نقترح L-Verse، وهي هندسة جديدة تتكون من ترميز متغير معزز بالخصائص (AugVAE) ونموذج تحويلي تلقائي عكسي ثنائي الاتجاه (BiART) لتوليد النص من الصورة وتوليد الصورة من النص. يظهر AugVAE أداء إعادة بناء رائد على مجموعة اختبار ImageNet1K التحققية، بالإضافة إلى متانته أمام الصور غير المعروفة في البيئة الحقيقية. على عكس النماذج الأخرى، يمكن لـ BiART تمييز الصورة (أو النص) كمرجع شرطي وهدف للتوليد. يمكن استخدام L-Verse مباشرة لتوليد النص من الصورة أو توليد الصورة من النص دون الحاجة لأي تعديل دقيق أو إطار إضافي لاكتشاف الأشياء. في التجارب الكمية والنوعية، أظهر L-Verse نتائج مثيرة للإعجاب مقابل الأساليب السابقة في كلٍّ من توليد النص من الصورة وتوليد الصورة من النص على MS-COCO Captions. كما نقيم قابلية توسع هندسة L-Verse على Conceptual Captions ونقدم نتيجة أولى لتعلم التمثيل الثنائي بين الرؤية واللغة في المجال العام.

L-Verse: التوليد المُتَعَاكِس بَيْن الصُّورَة والنَّص | أحدث الأوراق البحثية | HyperAI