HyperAIHyperAI

Command Palette

Search for a command to run...

IcoCap: تحسين وصف الفيديو من خلال تجميع الصور

Yi Yang Xiaohan Wang Linchao Zhu Yuanzhi Liang

الملخص

الوصف المرئي للفيديو (Video Captioning) يُعد مهمة أكثر تعقيدًا مقارنةً بوصف الصور (Image Captioning)، وذلك بشكل رئيسي بسبب الفروق في كثافة المحتوى. إذ يحتوي بيانات الفيديو على محتوى بصري متكرر، مما يجعل من الصعب على النماذج النصية التعميم على محتوى متنوع وتجنب التأثر بعناصر غير ذات صلة. علاوةً على ذلك، فإن المحتوى الزائد في الفيديو لا يتم تقطيعه بشكل فعّال بما يتناسب مع الدلالة البصرية الصحيحة في العينات المُرجعية (ground truth)، ما يزيد من صعوبة مهمة وصف الفيديو. تتركز الأبحاث الحالية في مجال وصف الفيديو بشكل رئيسي على تصميم نماذج النصوص، مع إهمال التأثير الناتج عن كثافة المحتوى على أداء هذه النماذج. مع الأخذ في الاعتبار الفروق بين الفيديو والصورة، توجد خطوة أخرى لتحسين وصف الفيديو من خلال الاستفادة من عينات صور موجزة وسهلة التعلم لتوسيع تنوع عينات الفيديو. يُجبر هذا التعديل على كثافة المحتوى النموذج النصي على تعلم المفاهيم البصرية المعقدة بشكل أكثر فعالية، مع التغلب على التكرار والغموض. في هذه الورقة، نقترح منهجية جديدة تُسمى "التعلم المركب بالصور للوصف المرئي للفيديو" (Image-Compounded learning for video Captioners، اختصارًا IcoCap) لتمكين تعلم أعمق للدلالات البصرية المعقدة في الفيديو. يتكوّن IcoCap من مكوّنين رئيسيين: استراتيجية توليف الصور والفيديو (Image-Video Compounding Strategy، اختصارًا ICS)، ووصف مرئي-دلالي موجه (Visual-Semantic Guided Captioning، اختصارًا VGC). تُدمج استراتيجية ICS مفاهيم بصرية بسيطة من الصور إلى مفاهيم الفيديو، مما يُعدّد المحتوى البصري للفيديو ويُشجّع الشبكة العصبية على التعميم على عينات أكثر تنوعًا. علاوةً على ذلك، عند التعلّم باستخدام عينات مُدمجة بمحتوى صور، يُجبر النموذج النصي على استخلاص الإشارات القيّمة في الفيديو بشكل أفضل، في ظل وجود دلالات صورية بسيطة، ما يساعده على التركيز على المعلومات ذات الصلة والتصفية من المحتوى غير الضروري. ثم، يوجّه VGC الشبكة العصبية لتعلم عناوين النصوص المُرجعية بشكل مرن بناءً على العينات المُدمجة، مما يُسهم في تقليل الفجوة بين العينات المُرجعية والدلالات الغامضة في عينات الفيديو. أظهرت النتائج التجريبية فعالية IcoCap في تحسين تعلّم نماذج وصف الفيديو. عند تطبيقه على مجموعات البيانات الشهيرة MSVD وMSR-VTT وVATEX، حقق الأداء مُنافسًا أو متفوقًا على الطرق الرائدة حاليًا، ما يُبرز قدرته على التعامل مع بيانات فيديو غنية بالتكرار والغموض.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
IcoCap: تحسين وصف الفيديو من خلال تجميع الصور | مستندات | HyperAI