Command Palette
Search for a command to run...
LLaVA-OneVision: نقل المهام البصرية بسهولة
LLaVA-OneVision: نقل المهام البصرية بسهولة
Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li
الملخص
نُقدِّم نموذج LLaVA-OneVision، وهو عائلة من النماذج الكبيرة متعددة الوسائط المفتوحة (LMMs)، تم تطويرها من خلال تجميع رؤانا حول البيانات والنماذج والتمثيلات البصرية من سلسلة مقالات LLaVA-NeXT. تُظهر نتائج تجاربنا أن LLaVA-OneVision هو النموذج الواحد الأول الذي يمكنه في آنٍ واحد تجاوز حدود الأداء في النماذج الكبيرة المفتوحة متعددة الوسائط (LMMs) في ثلاث سيناريوهات حاسوبية بصرية مهمة: السيناريوهات الأحادية الصورة، والمتعددة الصور، وسيناريوهات الفيديو. وتميّز تصميم LLaVA-OneVision بتمكينه من تعلم التحويل القوي عبر الوسائط أو السيناريوهات المختلفة، مما أدى إلى ظهور قدرات جديدة. وتحديدًا، تم إثبات قدرات قوية في فهم الفيديو، وتمكّن عبر السيناريوهات من خلال نقل المهام من الصور إلى الفيديو.