منذ 8 أشهر

الملخص

تحت تأثير قدرات الاستدلال المعقدة للنماذج اللغوية الكبيرة الحديثة (LLMs)، تم وضع مجموعة متنوعة من الاستراتيجيات لربط وسائط الفيديو. ومن بين هذه الاستراتيجيات، تبرز نماذج اللغة المرئية (VideoLMs)، التي تقوم بتدريب واجهة قابلة للتعلم باستخدام بيانات الفيديو لربط المُشفِّرات البصرية المتقدمة مع النماذج اللغوية الكبيرة. مؤخرًا، ظهرت استراتيجية بديلة تعتمد على استخدام النماذج الأساسية الجاهزة، مثل نماذج اللغة المرئية والنماذج اللغوية الكبيرة، عبر عدة مراحل لربط الوسائط. في هذه الدراسة، نقدم استراتيجية بسيطة ومعتدلة حيث يتم استخدام نموذج واحد فقط من نماذج اللغة المرئية (VLM). نقطة انطلاقنا هي الرؤية الواضحة بأن الفيديو يتكون من سلسلة صور أو إطارات متشابكة بمعلومات زمنية. جوهر فهم الفيديو يكمن في إدارة الجوانب الزمنية بشكل ماهر بالإضافة إلى التفاصيل المكانية لكل إطار. في البداية، نحول الفيديو إلى صورة مركبة واحدة عن طريق ترتيب الإطارات المتعددة في تصميم شبكة. الصورة الناتجة تُسمى شبكة الصور. هذا التنسيق، بينما يحافظ على مظهر الصورة الواحدة، يحتفظ بكفاءة بالمعلومات الزمنية داخل بنية الشبكة. وبالتالي، فإن طريقة شبكة الصور تمكن من التطبيق المباشر لنموذج واحد عالي الأداء من نماذج اللغة المرئية دون الحاجة إلى أي تدريب على بيانات الفيديو. تكشف تحليلنا التجريبي الواسع عبر عشرة مقاييس لتقييم أسئلة الفيديو بدون تعليم مسبق، بما في ذلك خمس مقاييس ذات أسئلة مفتوحة وخمس مقاييس ذات اختيارات متعددة، أن النموذج المقترح لشبكة الصور في نموذج اللغة المرئية (IG-VLM) يتفوق على الأساليب الموجودة في تسعة من أصل عشرة مقاييس.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة الصور يمكن أن تكون بقيمة الفيديو: الإجابة على أسئلة الفيديو بدون تدريب باستخدام نموذج لغوي بصري

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة الصور يمكن أن تكون بقيمة الفيديو: الإجابة على أسئلة الفيديو بدون تدريب باستخدام نموذج لغوي بصري

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة الصور يمكن أن تكون بقيمة الفيديو: الإجابة على أسئلة الفيديو بدون تدريب باستخدام نموذج لغوي بصري

Wonkyun Kim Changin Choi Wonseok Lee Wonjong Rhee

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters