HyperAIHyperAI

Command Palette

Search for a command to run...

Videoprompter: مجموعة من النماذج الأساسية لفهم الفيديو دون تدريب مسبق

Adeel Yousaf Muzammal Naseer Salman Khan Fahad Shahbaz Khan Mubarak Shah

الملخص

النماذج اللغوية المرئية (VLMs) تقوم بتصنيف الفيديو الاستفساري من خلال حساب درجة تشابه بين الخصائص البصرية وتمثيلات العلامات الفئوية القائمة على النص. مؤخرًا، تم استخدام النماذج اللغوية الكبيرة (LLMs) لتوسيع العلامات الفئوية القائمة على النص من خلال تعزيز وصفية أسماء الفئات. ومع ذلك، فإن هذه التحسينات مقتصرة على المصنف القائم على النص فقط، ولا يتم الأخذ في الاعتبار الخصائص البصرية للطلب. في هذا البحث، نقترح إطارًا يجمع بين النماذج اللغوية المرئية التمييزية المدربة مسبقًا والنماذج الجenerative المدربة مسبقًا لتحويل الفيديو إلى النص والنص إلى النص. نقدم تعديلين رئيسيين للإعداد التقليدي للتصنيف بدون تعلم (zero-shot). أولاً، نقترح تعزيز الخصائص البصرية بقيادة اللغة واستخدام نموذج تحويل الفيديو إلى النص لتحويل الفيديو الاستفساري إلى شكل واصفي له. تحتوي الوصفيات الناتجة على دلائل بصرية حاسمة للفيديو الاستفساري، مثل الأشياء الموجودة وتفاعلاتها الزمانية والمكانيّة. توفر هذه الدلائل الوصفية معرفة معنوية إضافية للنماذج اللغوية المرئية لتعزيز أدائها في التعلم بدون تعلم (zero-shot). ثانيًا، نقترح استخدام دعوات خاصة بالفيديو (prompts) للنماذج اللغوية الكبيرة لتوليد وصفيات أكثر معنى لتوسيع تمثيلات العلامات الفئوية. بشكل خاص، نقدم تقنيات الدعوات لإنشاء هرم شجري للفئات لأسماء الفئات، مما يوفر سياق عمل أعلى المستوى لإضافة دلائل بصرية إضافية. نظهر فعالية نهجنا في فهم الفيديو عبر ثلاثة إعدادات مختلفة للتعلم بدون تعلم (zero-shot): 1) تصنيف أفعال الفيديو، 2) استرجاع تحويل الفيديو إلى النص واسترجاع تحويل النص إلى الفيديو، و3) مهام الفيديو الحساسة للوقت. تُظهر التحسينات المستمرة عبر العديد من المقاييس ومع مختلف النماذج اللغوية المرئية فعالية الإطار المقترح لدينا. سيتم جعل كودنا متاحًا بشكل عام.请注意,为了符合阿拉伯语的书写习惯,上述翻译是从右向左书写的。同时,对于一些不常见的术语,如“generative”(生成式),在首次出现时保留了英文原词以确保信息的完整性。其他专业术语则采用了通用译法。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp