Command Palette
Search for a command to run...
TinyLLaVA:小规模大模型多模态框架
TinyLLaVA:小规模大模型多模态框架
Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang
摘要
我们提出了TinyLLaVA框架,该框架为小型大模型(Small-scale Large Multimodal Models, LMMs)的设计与分析提供了一个统一的视角。我们通过实证研究系统考察了不同视觉编码器、连接模块、语言模型、训练数据以及训练策略的影响。大量实验结果表明,高质量的数据结合优化的训练方法,使小型LMM在性能上可 consistently 达到与大型LMM相当的水平。基于该框架,我们训练了一组小型LMM模型。其中表现最佳的模型——TinyLLaVA-3.1B,在整体性能上优于现有的7B级别模型,如LLaVA-1.5和Qwen-VL。我们期望本研究的发现能为未来在数据规模扩展、训练配置设计及模型选型等方面的研究提供基准参考。我们的模型权重与代码将公开发布。