16日前
OpenFlamingo:大規模な自己回帰型視覚言語モデルの学習を目的としたオープンソースフレームワーク
Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt

要約
本稿では、3B~9Bパラメータ規模の自己回帰型視覚言語モデルであるOpenFlamingoを紹介する。OpenFlamingoは、DeepMindが開発したFlamingoモデルのオープンソース版を実現するための継続的な取り組みである。7つの視覚言語データセットにおいて、OpenFlamingoモデルは対応するFlamingoモデルの性能の80~89%を平均的に達成している。本技術報告書では、モデルの構造、学習データ、ハイパーパラメータ、評価セットについて詳述する。モデルおよびコードは、https://github.com/mlfoundations/open_flamingo にて公開している。