شات-يونيفي: التمثيل البصري الموحد يمنح النماذج اللغوية الكبيرة فهم الصور والفيديوهات

أظهرت النماذج اللغوية الكبيرة قدرات شاملة مثيرة للإعجاب في مجموعة واسعة من المهام المفتوحة، وقد وسعت نطاق فائدتها لتشمل المحادثات متعددة الوسائط. ومع ذلك، تواجه الطرق الحالية تحديات في التعامل بفعالية مع فهم الصور والفيديوهات، خاصة عند توفر رموز بصرية محدودة. في هذا العمل، نقدم Chat-UniVi، وهو نموذج موحد للرؤية واللغة قادر على فهم وإجراء محادثات تتعلق بالصور والفيديوهات من خلال تمثيل بصري موحد. بشكل خاص، نستخدم مجموعة من الرموز البصرية الديناميكية لتمثيل الصور والفيديوهات بشكل موحد. يتيح هذا الإطار التمثيلي للنموذج استخدام عدد محدود من الرموز البصرية بكفاءة لالتقاط التفاصيل المكانية اللازمة للصور والعلاقة الزمنية الشاملة المطلوبة للفيديوهات في آن واحد. علاوة على ذلك، نستفيد من تمثيل متعدد المقاييس، مما يتيح للنموذج إدراك المفاهيم الدلالية العليا والتفاصيل البصرية الدنيا على حد سواء. ومن الجدير بالذكر أن Chat-UniVi يتم تدريبه على مجموعة بيانات مختلطة تحتوي على صور وفيديوهات، مما يسمح بتطبيق مباشر للمهام التي تتضمن كلا الوسيلتين دون الحاجة إلى أي تعديلات. أظهرت النتائج التجريبية الواسعة أن Chat-UniVi يتفوق باستمرار حتى على الطرق الموجودة المصممة حصريًا لأحد الوسيلتين (الصور أو الفيديوهات). يمكن الوصول إلى الكود عبر الرابط: https://github.com/PKU-YuanGroup/Chat-UniVi.