HyperAIHyperAI

Command Palette

Search for a command to run...

تكرار النص: تحسين معرفة النص باستخدام الوصف الأمثل للمكان والزمان للاعتراف بالفيديو بشكل عام

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

الملخص

بسبب الطبيعة المكثفة للموارد اللازمة لتدريب نماذج الرؤية واللغة على بيانات الفيديو الواسعة، ركزت معظم الدراسات على تكييف النماذج المدربة مسبقًا للصور واللغة إلى مجال الفيديو. تقترح الأنابيب السائدة التعامل مع الاختلافات البصرية بإضافة متعلمين زمنيين إضافيين بينما تتجاهل الاختلاف الكبير في الروايات الوصفية ذات نطاق الويب والأسماء الموجزة لفئات الأفعال، مما يؤدي إلى فضاء دلالي أقل تمييزًا وقيود أداء محتملة. في هذا العمل، نركز على تحسين معرفة النصوص لتسهيل التعرف على الفيديو القابل للتعميم. لمعالجة قيود فضاء الدلالة الأقل تمييزًا لأسماء الفئات، نحفز نموذج اللغة الكبير (LLM) لتدعيم أسماء فئات الأفعال في وصفيات زمانية-مكانية، مما يربط الاختلاف النصي ويقدم كقاعدة معرفية للتعرف العام. بالإضافة إلى ذلك، لتعيين أفضل الوصفيات مع حالات الفيديو المختلفة، نقترح حل مشكلة الوصف الأمثل (Optimal Descriptor Solver)، والذي يشكل مشكلة التعرف على الفيديو كحل تدفق التطابق الأمثل عبر تمثيلات المستوى الإطاري والوصفيات. تؤكد التقييمات الشاملة في التعرف على الفيديو بدون أمثلة (zero-shot) وبأمثلة قليلة (few-shot) وفي الإشراف الكامل (fully supervised) على فعالية منهجيتنا. حقق أفضل نموذج لدينا دقة غير مسبوقة بدون أمثلة بلغت 75.1% على Kinetics-600.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تكرار النص: تحسين معرفة النص باستخدام الوصف الأمثل للمكان والزمان للاعتراف بالفيديو بشكل عام | مستندات | HyperAI