الصياغة الوصفيّة للصورة بالتحكم الفضائي والزمني

تُعدّ إنشاء عناوين صور مع مراعاة نية المستخدم حاجة متطورة في المجال. ويُعدّ مجموعة بيانات "Localized Narratives" التي أُصدرت مؤخرًا خطوة مهمة، حيث تُستخدم آثار الفأرة كمدخل إضافي في مهمة إنشاء عناوين الصور، وهي طريقة مباشرة وفعّالة يُمكن من خلالها للمستخدم التحكم في ما يجب وصفه في الصورة. ومع ذلك، ما زال يُستكمل البحث حول كيفية الاستفادة الفعّالة من هذه الآثار لتحسين جودة النص المُولَّد وقابلية التحكم فيه. يهدف هذا البحث إلى حل هذه المشكلة من خلال اقتراح نموذج جديد يُسمّى LoopCAG، الذي يربط بين القيود التباينية (Contrastive constraints) والتوجيه الانتباهي (Attention Guidance) بطريقة دائرية، ويُدمج قيودًا فضائية وزمانيّة صريحة في عملية الإنشاء. وبشكل دقيق، يتم تزامن كل جملة مُولَّدة زمنيًا مع التسلسل المقابل من الآثار باستخدام استراتيجية تعلم تبايني. علاوةً على ذلك، يتم مراقبة كل رمز نصي مُولَّد ليُركّز على الكائن البصري الصحيح تحت توجيه انتباه فضائي تمهيدي. وتبين النتائج التجريبية الشاملة أن نموذج LoopCAG يتعلّم تقابلًا أفضل بين الوسائط الثلاثة (الرؤية، اللغة، والآثار)، ويحقق أداءً متفوّقًا على مستوى الحد الأقصى (SOTA) في مهمة إنشاء عناوين الصور المُحكَمة بالآثار. علاوةً على ذلك، تم التحقق من قابلية التحكم والقابلية للتفسير في LoopCAG من خلال تحليل الحساسية الفضائية والزمنية أثناء عملية الإنشاء.