HyperAIHyperAI
منذ 2 أشهر

LLaVA-NeXT-Interleave: معالجة الصور المتعددة والفيديو والرسومات ثلاثية الأبعاد في النماذج متعددة الوسائط الكبيرة

Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
LLaVA-NeXT-Interleave: معالجة الصور المتعددة والفيديو والرسومات ثلاثية الأبعاد في النماذج متعددة الوسائط الكبيرة
الملخص

قد أحرزت تعديلات التعليم البصري تقدمًا كبيرًا في تعزيز قدرات النماذج المتعددة الأوضاع الكبيرة (LMMs). ومع ذلك، فإن معظم النماذج المفتوحة الحالية من LMMs تركز على مهام الصور الفردية، ويبقى تطبيقها في السيناريوهات المتعددة الصور أقل استكشافًا. بالإضافة إلى ذلك، تم التعامل مع سيناريوهات مختلفة في البحوث السابقة حول LMM بشكل منفصل، مما يجعل من المستحيل تعميم هذه السيناريوهات باستخدام القدرات الجديدة الناشئة. بهدف حل هذه المشكلة، نقدم LLaVA-NeXT-Interleave، الذي يتعامل بشكل متزامن مع السيناريوهات المتعددة الصور (Multi-image)، الإطارات المتعددة (الفيديو) (Multi-frame)، وجهات النظر المتعددة (3D) (Multi-view)، والشرائح المتعددة (الصورة الواحدة) (Multi-patch) في النماذج المتعددة الأوضاع. لتمكين هذه القدرات، نعتبر تنسيق البيانات المتشابكة كقالب عام ونقوم بجمع مجموعة بيانات M4-Instruct التي تحتوي على 1,177,600 عينة، تغطي 4 مجالات رئيسية تتضمن 14 مهمة و41 مجموعة بيانات. كما قمنا بتجميع مقاييس LLaVA-Interleave لتقييم شامل لأداء النماذج المتعددة الأوضاع في السيناريوهات المتعددة الصور. من خلال التجارب الواسعة، حققت LLaVA-NeXT-Interleave نتائج رائدة في مقاييس السيناريوهات المتعددة الصور والفيديو والـ 3D، مع الحفاظ على أداء مهام الصور الفردية. بالإضافة إلى ذلك، يظهر نموذجنا أيضًا عدة قدرات جديدة ناشئة مثل نقل المهام عبر إعدادات وأوضاع مختلفة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/LLaVA-VL/LLaVA-NeXT

LLaVA-NeXT-Interleave: معالجة الصور المتعددة والفيديو والرسومات ثلاثية الأبعاد في النماذج متعددة الوسائط الكبيرة | أحدث الأوراق البحثية | HyperAI