HyperAIHyperAI

Command Palette

Search for a command to run...

التكيف الانتقالي للنماذج المُدرّبة مسبقًا لسرد القصص البصرية

Gunhee Kim Jongseok Kim Heeseung Yun Jiwan Chung Youngjae Yu

الملخص

تُستخدم النماذج السابقة لمهام التوليد من الرؤية إلى اللغة عادةً تدريبًا مسبقًا لمشغل الرؤية ومحول اللغة في المجالات المقابلة، ثم تدريبهما معًا بشكل مشترك باستخدام المهمة المستهدفة. ومع ذلك، قد تعاني هذه الممارسة المباشرة للنقل من تناقض بين التخصص البصري والانسيابية اللغوية، نظرًا لأنها غالبًا ما تُدرَّس بشكل منفصل باستخدام مجموعات بيانات ضخمة من الصور والنصوص دون وجود أساس مشترك. في هذا العمل، ندعي أن مهمة تكييف انتقالية مطلوبة بين التدريب المسبق والتدريب المخصص لتوحيد مشغل الرؤية ونموذج اللغة من أجل المهام المستهدفة الصعبة مثل سرد القصص المرئية. نقترح منهجية جديدة تُسمى "تكييف النموذج المدرب مسبقًا انتقاليًا" (TAPM)، والتي تُعدّل الوحدات متعددة الوسائط ببعضها البعض من خلال مهمة توحيد أبسط تتم بين المدخلات البصرية فقط، دون الحاجة إلى تسميات نصية. من خلال تجارب واسعة، نُظهر أن خطوة التكييف تُحسّن بشكل كبير أداء عدة نماذج لغوية في مهام التسمية التوضيحية التسلسلية للفيديوهات والصور. وحققنا أداءً جديدًا يُعتبر الأفضل في مجاله من حيث مقاييس اللغة والتقييم البشري في مهمة الوصف متعدد الجملة ضمن مبادرة LSMDC 2019، وفي مهمة سرد القصص المرئية ضمن مبادرة VIST. تُظهر تجاربنا أن هذا التحسن في جودة التسمية لا يعتمد على الاختيار المحدد لنموذج اللغة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التكيف الانتقالي للنماذج المُدرّبة مسبقًا لسرد القصص البصرية | مستندات | HyperAI