HyperAIHyperAI

Command Palette

Search for a command to run...

SPHINX: Die gemeinsame Mischung von Gewichten, Aufgaben und visuellen Einbettungen für multimodale große Sprachmodelle

Zusammenfassung

Wir stellen SPHINX vor, ein vielseitiges multimodales großes Sprachmodell (MLLM) mit gemeinsamer Mischung von Modellgewichten, Anpassungsaufgaben und visuellen Einbettungen. Zunächst, um eine stärkere Ausrichtung zwischen Vision und Sprache zu erreichen, entfrieren wir das große Sprachmodell (LLM) während des Vortrainings und führen eine Gewichtsmischstrategie zwischen LLMs ein, die mit realen und synthetischen Daten trainiert wurden. Durch die direkte Integration der Gewichte aus beiden Bereichen kann das gemischte LLM effizient verschiedene Semantiken aufnehmen und dabei eine gute Robustheit gewährleisten. Anschließend, um mehrzweckfähige Fähigkeiten zu ermöglichen, mischen wir eine Vielzahl von Aufgaben für die gemeinsame Anpassung visueller Anweisungen und entwickeln aufgabenbezogene Anweisungen, um Konflikte zwischen den Aufgaben zu vermeiden. Neben der grundlegenden visuellen Fragebeantwortung beinhalten wir anspruchsvollere Aufgaben wie regionale Verständnisfragen, Caption-Grounding, Dokumentlayout-Erkennung und menschliche Pose-Schätzung, was zur gegenseitigen Verbesserung in verschiedenen Szenarien beiträgt.Darüber hinaus schlagen wir vor, umfassende visuelle Einbettungen aus verschiedenen Netzarchitekturen, Vortraining-Paradigmen und Informationsfeinheit zu extrahieren. Dies bietet Sprachmodellen robustere Bildrepräsentationen. Basierend auf unserer vorgeschlagenen gemeinsamen Mischung zeigt SPHINX überlegene multimodale Verständigungsfähigkeiten in einer breiten Palette von Anwendungen. Darüber hinaus schlagen wir eine effiziente Strategie vor, die darauf abzielt, feingranulare Merkmale hochaufgelöster Bilder besser zu erfassen. Durch die Mischung verschiedener Skalen und hochaufgelöster Teilbilder erreicht SPHINX außergewöhnliche Leistungen im Bereich visueller Analyse und Schlußfolgerung bei bestehenden Evaluationsbenchmarks. Wir hoffen, dass unsere Arbeit Licht ins Dunkel der Erkundung gemeinsamer Mischungen in zukünftiger MLLM-Forschung bringen wird. Der Quellcode ist unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp