HyperAIHyperAI
vor 2 Monaten

Infinity-MM: Skalierung der multimodalen Leistung durch groß angelegte und hochwertige Anweisungsdaten

Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
Infinity-MM: Skalierung der multimodalen Leistung durch groß angelegte und hochwertige Anweisungsdaten
Abstract

Vision-Language-Modelle (VLMs) haben kürzlich erhebliche Fortschritte gemacht, jedoch hemmt die begrenzte Größe und Qualität der Open-Source-Anweisungsdaten ihre Leistung im Vergleich zu proprietären Modellen. In dieser Arbeit adressieren wir diese Einschränkung durch die Einführung von Infinity-MM, einem groß angelegten multimodalen Anweisungssatz mit 40 Millionen Beispielen, der durch strenges Qualitätsfiltern und Entduplizierung verbessert wurde. Zudem schlagen wir eine Methode zur Erzeugung synthetischer Anweisungen vor, die auf Open-Source-VLMs basiert und detaillierte Bildannotierungen sowie vielfältige Fragegenerierung verwendet. Mit diesen Daten trainierten wir ein VLM mit 2 Milliarden Parametern, Aquila-VL-2B, das für Modelle ähnlicher Größe Spitzenleistungen (state-of-the-art, SOTA) erzielt. Dies zeigt, dass die Erweiterung von Anweisungsdaten und die Generierung synthetischer Daten die Leistung von Open-Source-Modellen erheblich verbessern können.

Infinity-MM: Skalierung der multimodalen Leistung durch groß angelegte und hochwertige Anweisungsdaten | Neueste Forschungsarbeiten | HyperAI