HyperAIHyperAI
منذ 11 أيام

التكيف الانتقالي للنماذج المُدرّبة مسبقًا لسرد القصص البصرية

{Gunhee Kim, Jongseok Kim, Heeseung Yun, Jiwan Chung, Youngjae Yu}
التكيف الانتقالي للنماذج المُدرّبة مسبقًا لسرد القصص البصرية
الملخص

تُستخدم النماذج السابقة لمهام التوليد من الرؤية إلى اللغة عادةً تدريبًا مسبقًا لمشغل الرؤية ومحول اللغة في المجالات المقابلة، ثم تدريبهما معًا بشكل مشترك باستخدام المهمة المستهدفة. ومع ذلك، قد تعاني هذه الممارسة المباشرة للنقل من تناقض بين التخصص البصري والانسيابية اللغوية، نظرًا لأنها غالبًا ما تُدرَّس بشكل منفصل باستخدام مجموعات بيانات ضخمة من الصور والنصوص دون وجود أساس مشترك. في هذا العمل، ندعي أن مهمة تكييف انتقالية مطلوبة بين التدريب المسبق والتدريب المخصص لتوحيد مشغل الرؤية ونموذج اللغة من أجل المهام المستهدفة الصعبة مثل سرد القصص المرئية. نقترح منهجية جديدة تُسمى "تكييف النموذج المدرب مسبقًا انتقاليًا" (TAPM)، والتي تُعدّل الوحدات متعددة الوسائط ببعضها البعض من خلال مهمة توحيد أبسط تتم بين المدخلات البصرية فقط، دون الحاجة إلى تسميات نصية. من خلال تجارب واسعة، نُظهر أن خطوة التكييف تُحسّن بشكل كبير أداء عدة نماذج لغوية في مهام التسمية التوضيحية التسلسلية للفيديوهات والصور. وحققنا أداءً جديدًا يُعتبر الأفضل في مجاله من حيث مقاييس اللغة والتقييم البشري في مهمة الوصف متعدد الجملة ضمن مبادرة LSMDC 2019، وفي مهمة سرد القصص المرئية ضمن مبادرة VIST. تُظهر تجاربنا أن هذا التحسن في جودة التسمية لا يعتمد على الاختيار المحدد لنموذج اللغة.

التكيف الانتقالي للنماذج المُدرّبة مسبقًا لسرد القصص البصرية | أحدث الأوراق البحثية | HyperAI