نص مع مُضاعف رسم معرفي لمحول لصياغة عناوين الفيديو

تهدف التسمية المرئية (Video Captioning) إلى وصف محتوى الفيديوهات باستخدام لغة طبيعية. وعلى الرغم من التقدم الكبير المحرز في هذا المجال، لا يزال هناك مجال واسع لتحسين الأداء في التطبيقات الواقعية، ويعود ذلك أساسًا إلى تحدي الكلمات ذات التوزيع الطويل الذيل (Long-tail words). في هذه الورقة، نقترح نموذجًا جديدًا يُسمى "Transformer مُعزّز بالنص والرسم البياني للمعرفة" (TextKG) للتمييز المرئي. وتميّز TextKG بأنه نموذج ثنائي التدفق (Two-stream Transformer)، يتكون من تدفق خارجي وتدفق داخلي. يُصمم التدفق الخارجي لاستيعاب معرفة إضافية، حيث يُنشئ نموذجًا للتفاعلات بين المعرفة الإضافية، مثل الرسوم البيانية المُعدّة مسبقًا (Pre-built Knowledge Graph)، والمعلومات المدمجة في الفيديو، مثل مناطق الكائنات البارزة، ونصوص التسجيل الصوتي، ونصوص التسمية المرئية، بهدف تقليل تأثير تحدي الكلمات ذات التوزيع الطويل الذيل. في الوقت نفسه، يُصمم التدفق الداخلي لاستغلال المعلومات متعددة الوسائط في الفيديو (مثل مظهر الإطارات، ونصوص التسجيل الصوتي، ونصوص التسمية المرئية) لضمان جودة نتائج التسمية. بالإضافة إلى ذلك، يتم استخدام آلية الانتباه المتقاطع (Cross-attention) بين التدفقين لتبادل المعلومات، مما يسمح لهما بالعمل معًا وتعزيز بعضهما البعض لتحقيق نتائج أكثر دقة. أظهرت التجارب الواسعة التي أُجريت على أربع مجموعات بيانات صعبة للتمييز المرئي، وهي YouCookII، وActivityNet Captions، وMSRVTT، وMSVD، أن الأسلوب المقترح يتفوق على أحدث الطرق المنشورة. وبشكل خاص، حقق نموذج TextKG تحسنًا بنسبة 18.7% مطلقة في معيار CIDEr على مجموعة بيانات YouCookII مقارنةً بأفضل النتائج المنشورة سابقًا.