16 天前

OpenFlamingo:一个用于训练大型自回归视觉-语言模型的开源框架

Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt
OpenFlamingo:一个用于训练大型自回归视觉-语言模型的开源框架
摘要

我们推出了 OpenFlamingo,这是一个参数规模从 30 亿到 90 亿的自回归视觉-语言模型系列。OpenFlamingo 是一项持续进行的开源项目,旨在复现 DeepMind 的 Flamingo 模型。在七个视觉-语言基准数据集上,OpenFlamingo 模型的平均性能达到对应 Flamingo 模型的 80% 至 89%。本技术报告详细介绍了我们的模型架构、训练数据、超参数设置以及评估体系。相关模型与代码已开源,可访问 https://github.com/mlfoundations/open_flamingo 获取。