HyperAIHyperAI
منذ 17 أيام

LaDiC: هل النماذج الانتشارية حقًا أضعف من نماذج التوليد التلقائي التتابعي في المهمات التي تتطلب تحويل الصور إلى نص؟

Yuchi Wang, Shuhuai Ren, Rundong Gao, Linli Yao, Qingyan Guo, Kaikai An, Jianhong Bai, Xu Sun
LaDiC: هل النماذج الانتشارية حقًا أضعف من نماذج التوليد التلقائي التتابعي في المهمات التي تتطلب تحويل الصور إلى نص؟
الملخص

أظهرت نماذج الانتشار قدرات مميزة في توليد الصور من النص، لكن أداؤها في المهام العكسية، وخاصة توليد وصف للصور (image captioning)، تأخر مقارنةً بالنماذج ذات التوليد التلقائي (AR)، مما أثار شكوكًا حول جدواها في هذه المهام. في هذا العمل، نعيد النظر في نماذج الانتشار، مع تسليط الضوء على قدرتها على نمذجة السياق الشامل وتنفيذ التشفير المتوازٍ. وبفضل هذه المزايا، يمكن لنموذج الانتشار التخفيف من القيود الجوهرية للطرق التلقائية، بما في ذلك سرعة الاستنتاج البطيئة، وتراكم الأخطاء، والقيود الأحادية الاتجاه. علاوةً على ذلك، نحدد أن السبب في التفوق المحدود لنموذج الانتشار يعود إلى غياب فضاء لاتيني فعّال لمحاذاة الصور بالنصوص، بالإضافة إلى الفجوة بين العمليات التكاثرية المستمرة وبيانات النصوص المنفصلة. للرد على هذه التحديات، نُقدِّم معمارية جديدة تُسمى LaDiC، والتي تستخدم نموذج BERT منقسمًا لإنشاء فضاء لاتيني مخصص للعناوين، وتمدّد بوحدة تنظيمية لضبط أطوال النصوص المختلفة. كما يشمل إطار العمل لدينا مُنَشِّطًا (diffuser) لتحويل الصور إلى نصوص ذات معنى، وتقنية Back&Refine لتعزيز التفاعل بين الرموز أثناء الاستنتاج. تحقق LaDiC أفضل أداء مُسجّل بين النماذج القائمة على الانتشار على مجموعة بيانات MS COCO، بتحقيق 38.2 نقطة BLEU@4 و126.2 نقطة CIDEr، مما يدل على أداء متميز دون الحاجة إلى التدريب المسبق أو وحدات داعمة إضافية. ويشير هذا إلى تنافسية قوية مع النماذج التلقائية، مُظهِرًا القدرات غير المستغلة سابقًا لنموذج الانتشار في توليد النصوص من الصور.