HyperAIHyperAI
منذ 2 أشهر

تكرار النص: تحسين معرفة النص باستخدام الوصف الأمثل للمكان والزمان للاعتراف بالفيديو بشكل عام

Tongjia Chen; Hongshan Yu; Zhengeng Yang; Zechuan Li; Wei Sun; Chen Chen
تكرار النص: تحسين معرفة النص باستخدام الوصف الأمثل للمكان والزمان للاعتراف بالفيديو بشكل عام
الملخص

بسبب الطبيعة المكثفة للموارد اللازمة لتدريب نماذج الرؤية واللغة على بيانات الفيديو الواسعة، ركزت معظم الدراسات على تكييف النماذج المدربة مسبقًا للصور واللغة إلى مجال الفيديو. تقترح الأنابيب السائدة التعامل مع الاختلافات البصرية بإضافة متعلمين زمنيين إضافيين بينما تتجاهل الاختلاف الكبير في الروايات الوصفية ذات نطاق الويب والأسماء الموجزة لفئات الأفعال، مما يؤدي إلى فضاء دلالي أقل تمييزًا وقيود أداء محتملة. في هذا العمل، نركز على تحسين معرفة النصوص لتسهيل التعرف على الفيديو القابل للتعميم. لمعالجة قيود فضاء الدلالة الأقل تمييزًا لأسماء الفئات، نحفز نموذج اللغة الكبير (LLM) لتدعيم أسماء فئات الأفعال في وصفيات زمانية-مكانية، مما يربط الاختلاف النصي ويقدم كقاعدة معرفية للتعرف العام. بالإضافة إلى ذلك، لتعيين أفضل الوصفيات مع حالات الفيديو المختلفة، نقترح حل مشكلة الوصف الأمثل (Optimal Descriptor Solver)، والذي يشكل مشكلة التعرف على الفيديو كحل تدفق التطابق الأمثل عبر تمثيلات المستوى الإطاري والوصفيات. تؤكد التقييمات الشاملة في التعرف على الفيديو بدون أمثلة (zero-shot) وبأمثلة قليلة (few-shot) وفي الإشراف الكامل (fully supervised) على فعالية منهجيتنا. حقق أفضل نموذج لدينا دقة غير مسبوقة بدون أمثلة بلغت 75.1% على Kinetics-600.

تكرار النص: تحسين معرفة النص باستخدام الوصف الأمثل للمكان والزمان للاعتراف بالفيديو بشكل عام | أحدث الأوراق البحثية | HyperAI