SPHINX: Die gemeinsame Mischung von Gewichten, Aufgaben und visuellen Einbettungen für multimodale große Sprachmodelle

Wir stellen SPHINX vor, ein vielseitiges multimodales großes Sprachmodell (MLLM) mit gemeinsamer Mischung von Modellgewichten, Anpassungsaufgaben und visuellen Einbettungen. Zunächst, um eine stärkere Ausrichtung zwischen Vision und Sprache zu erreichen, entfrieren wir das große Sprachmodell (LLM) während des Vortrainings und führen eine Gewichtsmischstrategie zwischen LLMs ein, die mit realen und synthetischen Daten trainiert wurden. Durch die direkte Integration der Gewichte aus beiden Bereichen kann das gemischte LLM effizient verschiedene Semantiken aufnehmen und dabei eine gute Robustheit gewährleisten. Anschließend, um mehrzweckfähige Fähigkeiten zu ermöglichen, mischen wir eine Vielzahl von Aufgaben für die gemeinsame Anpassung visueller Anweisungen und entwickeln aufgabenbezogene Anweisungen, um Konflikte zwischen den Aufgaben zu vermeiden. Neben der grundlegenden visuellen Fragebeantwortung beinhalten wir anspruchsvollere Aufgaben wie regionale Verständnisfragen, Caption-Grounding, Dokumentlayout-Erkennung und menschliche Pose-Schätzung, was zur gegenseitigen Verbesserung in verschiedenen Szenarien beiträgt.Darüber hinaus schlagen wir vor, umfassende visuelle Einbettungen aus verschiedenen Netzarchitekturen, Vortraining-Paradigmen und Informationsfeinheit zu extrahieren. Dies bietet Sprachmodellen robustere Bildrepräsentationen. Basierend auf unserer vorgeschlagenen gemeinsamen Mischung zeigt SPHINX überlegene multimodale Verständigungsfähigkeiten in einer breiten Palette von Anwendungen. Darüber hinaus schlagen wir eine effiziente Strategie vor, die darauf abzielt, feingranulare Merkmale hochaufgelöster Bilder besser zu erfassen. Durch die Mischung verschiedener Skalen und hochaufgelöster Teilbilder erreicht SPHINX außergewöhnliche Leistungen im Bereich visueller Analyse und Schlußfolgerung bei bestehenden Evaluationsbenchmarks. Wir hoffen, dass unsere Arbeit Licht ins Dunkel der Erkundung gemeinsamer Mischungen in zukünftiger MLLM-Forschung bringen wird. Der Quellcode ist unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.