HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة الصور يمكن أن تكون بقيمة الفيديو: الإجابة على أسئلة الفيديو بدون تدريب باستخدام نموذج لغوي بصري

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

الملخص

تحت تأثير قدرات الاستدلال المعقدة للنماذج اللغوية الكبيرة الحديثة (LLMs)، تم وضع مجموعة متنوعة من الاستراتيجيات لربط وسائط الفيديو. ومن بين هذه الاستراتيجيات، تبرز نماذج اللغة المرئية (VideoLMs)، التي تقوم بتدريب واجهة قابلة للتعلم باستخدام بيانات الفيديو لربط المُشفِّرات البصرية المتقدمة مع النماذج اللغوية الكبيرة. مؤخرًا، ظهرت استراتيجية بديلة تعتمد على استخدام النماذج الأساسية الجاهزة، مثل نماذج اللغة المرئية والنماذج اللغوية الكبيرة، عبر عدة مراحل لربط الوسائط. في هذه الدراسة، نقدم استراتيجية بسيطة ومعتدلة حيث يتم استخدام نموذج واحد فقط من نماذج اللغة المرئية (VLM). نقطة انطلاقنا هي الرؤية الواضحة بأن الفيديو يتكون من سلسلة صور أو إطارات متشابكة بمعلومات زمنية. جوهر فهم الفيديو يكمن في إدارة الجوانب الزمنية بشكل ماهر بالإضافة إلى التفاصيل المكانية لكل إطار. في البداية، نحول الفيديو إلى صورة مركبة واحدة عن طريق ترتيب الإطارات المتعددة في تصميم شبكة. الصورة الناتجة تُسمى شبكة الصور. هذا التنسيق، بينما يحافظ على مظهر الصورة الواحدة، يحتفظ بكفاءة بالمعلومات الزمنية داخل بنية الشبكة. وبالتالي، فإن طريقة شبكة الصور تمكن من التطبيق المباشر لنموذج واحد عالي الأداء من نماذج اللغة المرئية دون الحاجة إلى أي تدريب على بيانات الفيديو. تكشف تحليلنا التجريبي الواسع عبر عشرة مقاييس لتقييم أسئلة الفيديو بدون تعليم مسبق، بما في ذلك خمس مقاييس ذات أسئلة مفتوحة وخمس مقاييس ذات اختيارات متعددة، أن النموذج المقترح لشبكة الصور في نموذج اللغة المرئية (IG-VLM) يتفوق على الأساليب الموجودة في تسعة من أصل عشرة مقاييس.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp