HyperAIHyperAI

Command Palette

Search for a command to run...

Effizientes multimodales Lernen aus datenzentrierter Perspektive

Muyang He extsuperscript1,2*, Yexin Liu extsuperscript1,3*, Boya Wu extsuperscript1*, Jianhao Yuan extsuperscript4, Yueze Wang extsuperscript1, Tiejun Huang extsuperscript1,2, Bo Zhao extsuperscript1,5†

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben erhebliche Fähigkeiten in allgemeinen visuellen Verständnis- und Schließungsaufgaben gezeigt. Ihre Einführung wird jedoch durch erhebliche Rechenkosten sowohl beim Training als auch bei der Inferenz behindert, was den Zugang für die breitere Forschungs- und Nutzergemeinschaft einschränkt. Eine einfache Lösung besteht darin, kleinere vortrainierte Vision- und Sprachmodelle zu nutzen, was jedoch unvermeidlich zu erheblichen Leistungsabfällungen führt. In dieser Arbeit zeigen wir die Möglichkeit, ein kleineres aber besseres MLLM mit hochwertigen Trainingsdaten zu trainieren. Insbesondere stellen wir Bunny vor, eine Familie von leichten MLLMs mit flexiblen Vision- und Sprachbackbones für effizientes multimodales Lernen aus selektierten Trainingsdaten. Experimente zeigen, dass unser Bunny-4B/8B auf mehreren Benchmarks die besten großen MLLMs übertrifft. Wir erwarten, dass diese Arbeit der Gemeinschaft ein sauberes und flexibles Open-Source-Werkzeug für weitere Forschung und Entwicklung zur Verfügung stellt. Der Code, die Modelle und die Daten sind unter https://github.com/BAAI-DCAI/Bunny abrufbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effizientes multimodales Lernen aus datenzentrierter Perspektive | Paper | HyperAI