HyperAIHyperAI

Command Palette

Search for a command to run...

LaDiC: هل النماذج الانتشارية حقًا أضعف من نماذج التوليد التلقائي التتابعي في المهمات التي تتطلب تحويل الصور إلى نص؟

Yuchi Wang Shuhuai Ren Rundong Gao Linli Yao Qingyan Guo Kaikai An Jianhong Bai Xu Sun

الملخص

أظهرت نماذج الانتشار قدرات مميزة في توليد الصور من النص، لكن أداؤها في المهام العكسية، وخاصة توليد وصف للصور (image captioning)، تأخر مقارنةً بالنماذج ذات التوليد التلقائي (AR)، مما أثار شكوكًا حول جدواها في هذه المهام. في هذا العمل، نعيد النظر في نماذج الانتشار، مع تسليط الضوء على قدرتها على نمذجة السياق الشامل وتنفيذ التشفير المتوازٍ. وبفضل هذه المزايا، يمكن لنموذج الانتشار التخفيف من القيود الجوهرية للطرق التلقائية، بما في ذلك سرعة الاستنتاج البطيئة، وتراكم الأخطاء، والقيود الأحادية الاتجاه. علاوةً على ذلك، نحدد أن السبب في التفوق المحدود لنموذج الانتشار يعود إلى غياب فضاء لاتيني فعّال لمحاذاة الصور بالنصوص، بالإضافة إلى الفجوة بين العمليات التكاثرية المستمرة وبيانات النصوص المنفصلة. للرد على هذه التحديات، نُقدِّم معمارية جديدة تُسمى LaDiC، والتي تستخدم نموذج BERT منقسمًا لإنشاء فضاء لاتيني مخصص للعناوين، وتمدّد بوحدة تنظيمية لضبط أطوال النصوص المختلفة. كما يشمل إطار العمل لدينا مُنَشِّطًا (diffuser) لتحويل الصور إلى نصوص ذات معنى، وتقنية Back&Refine لتعزيز التفاعل بين الرموز أثناء الاستنتاج. تحقق LaDiC أفضل أداء مُسجّل بين النماذج القائمة على الانتشار على مجموعة بيانات MS COCO، بتحقيق 38.2 نقطة BLEU@4 و126.2 نقطة CIDEr، مما يدل على أداء متميز دون الحاجة إلى التدريب المسبق أو وحدات داعمة إضافية. ويشير هذا إلى تنافسية قوية مع النماذج التلقائية، مُظهِرًا القدرات غير المستغلة سابقًا لنموذج الانتشار في توليد النصوص من الصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LaDiC: هل النماذج الانتشارية حقًا أضعف من نماذج التوليد التلقائي التتابعي في المهمات التي تتطلب تحويل الصور إلى نص؟ | مستندات | HyperAI