منذ 2 أشهر
LLaVA-OneVision: نقل المهام البصرية بسهولة
Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li

الملخص
نقدم LLaVA-OneVision، عائلة من النماذج المتعددة الوسائط الكبيرة والمفتوحة (LMMs) التي تم تطويرها من خلال دمج رؤيتنا حول البيانات والنماذج والتمثيلات البصرية في سلسلة مدونات LLaVA-NeXT. تظهر نتائج تجاربنا أن LLaVA-OneVision هو أول نموذج واحد قادر على توسيع حدود الأداء للنماذج المتعددة الوسائط المفتوحة (LMMs) في ثلاثة سيناريوهات مهمة لرؤية الحاسوب: السيناريوهات ذات الصورة الواحدة، صور متعددة، والفيديو. من المهم الإشارة إلى أن تصميم LLaVA-OneVision يسمح بالتعلم النقل القوي عبر مختلف الوسائط/السيناريوهات، مما يؤدي إلى ظهور قدرات جديدة. بشكل خاص، يتم التوضيح للقدرة القوية على فهم الفيديو والقدرات العابرة للسيناريوهات من خلال نقل المهام من الصور إلى الفيديو.