HyperAIHyperAI

Command Palette

Search for a command to run...

رسم كائنات علاقية مع تعلم مُوصى به من المعلم لوصف الفيديو

Ziqi Zhang Yaya Shi Chunfeng Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha

الملخص

الاستفادة الكاملة من المعلومات المستمدة من كل من الرؤية واللغة أمر بالغ الأهمية في مهام وصف الفيديو. تعاني النماذج الحالية من تمثيل بصري غير كافٍ بسبب إهمال التفاعل بين الكائنات، وكذلك من تدريب غير كافٍ للكلمات ذات الصلة بالمحتوى بسبب مشكلة التوزيع الطويل الذيل (long-tailed). في هذه الورقة، نقترح نظامًا متكاملًا لوصف الفيديو يتضمن نموذجًا جديدًا واستراتيجية تدريب فعّالة. بشكل خاص، نُقدّم مشغلًا قائمًا على رسم بياني للعلاقة بين الكائنات (Object Relational Graph - ORG)، الذي يُمكّن من التقاط ميزات تفاعل أكثر تفصيلًا لتعزيز التمثيل البصري. في الوقت نفسه، نصمم طريقة تعلّم مُرشَّحَة من قبل المُدرّس (Teacher-Recommended Learning - TRL) للاستفادة القصوى من النموذج اللغوي الخارجي الناجح (External Language Model - ELM)، بهدف دمج المعرفة اللغوية الوافرة في نموذج الوصف. يقوم النموذج اللغوي الخارجي بإنشاء اقتراحات كلمات أكثر تشابهًا من الناحية الدلالية، مما يوسع الكلمات الصحيحة المُستخدمة في التدريب، لمعالجة مشكلة التوزيع الطويل الذيل. أظهرت التقييمات التجريبية على ثلاث معايير: MSVD وMSR-VTT وVATEX، أن نظام ORG-TRL المُقترح يحقق أداءً من الدرجة الأولى (state-of-the-art). كما تُظهر الدراسات التحليلية الموسعة والتصاميم البصرية فعالية النظام المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
رسم كائنات علاقية مع تعلم مُوصى به من المعلم لوصف الفيديو | مستندات | HyperAI