HyperAIHyperAI
منذ 2 أشهر

الدمج المعرفي السابق من خلال ترميز LLM وتنظيم الأحداث الوهمية لإعادة استرجاع اللحظات في الفيديو

Jiang, Yiyang ; Zhang, Wengyu ; Zhang, Xulu ; Wei, Xiaoyong ; Chen, Chang Wen ; Li, Qing
الدمج المعرفي السابق من خلال ترميز LLM وتنظيم الأحداث الوهمية
لإعادة استرجاع اللحظات في الفيديو
الملخص

في هذا البحث، ندرس إمكانية الاستفادة من نماذج اللغات الكبيرة (LLMs) لدمج المعرفة العامة وتوظيف الأحداث الوهمية كمقومات أولية لتوزيع المحتوى الزمني في نماذج استرجاع اللحظات الفيديوية (VMR). تأتي دوافع هذه الدراسة من حدود استخدام نماذج اللغات الكبيرة كمفككات لتقديم وصف نصي متقطع، مما يعيق تطبيقها المباشر على الإخراجات المستمرة مثل درجات البارزة والتمثيلات بين الإطارات التي تلتقط العلاقات بين الإطارات. للقضاء على هذه الحدود، نقترح استخدام مكودرات نماذج اللغات الكبيرة بدلاً من المفككات. من خلال دراسة إمكانية التطبيق، نثبت أن مكودرات نماذج اللغات الكبيرة تعزز فعلياً العلاقات بين المفاهيم في التمثيلات المتعددة الأوضاع حتى دون تدريبها على التمثيلات النصية. كما نظهر أن قدرة التعزيز لدى مكودرات نماذج اللغات الكبيرة يمكن تحويلها إلى تمثيلات أخرى مثل BLIP و T5، طالما أن هذه التمثيلات تظهر أنماطاً مشابهة للتشابه بين المفاهيم في تمثيلات CLIP. نقدم إطاراً عاماً لدمج مكودرات نماذج اللغات الكبيرة في هياكل VMR الموجودة، وبشكل خاص داخل وحدة الدمج. ومن خلال التحقق التجريبي، نثبت فعالية الأساليب المقترحة بتحقيق أداء رائد في VMR. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/fletcherjiang/LLMEPET.

الدمج المعرفي السابق من خلال ترميز LLM وتنظيم الأحداث الوهمية لإعادة استرجاع اللحظات في الفيديو | أحدث الأوراق البحثية | HyperAI