Effizientes multimodales Lernen aus datenzentrierter Perspektive

Multimodale große Sprachmodelle (MLLMs) haben erhebliche Fähigkeiten in allgemeinen visuellen Verständnis- und Schließungsaufgaben gezeigt. Ihre Einführung wird jedoch durch erhebliche Rechenkosten sowohl beim Training als auch bei der Inferenz behindert, was den Zugang für die breitere Forschungs- und Nutzergemeinschaft einschränkt. Eine einfache Lösung besteht darin, kleinere vortrainierte Vision- und Sprachmodelle zu nutzen, was jedoch unvermeidlich zu erheblichen Leistungsabfällungen führt. In dieser Arbeit zeigen wir die Möglichkeit, ein kleineres aber besseres MLLM mit hochwertigen Trainingsdaten zu trainieren. Insbesondere stellen wir Bunny vor, eine Familie von leichten MLLMs mit flexiblen Vision- und Sprachbackbones für effizientes multimodales Lernen aus selektierten Trainingsdaten. Experimente zeigen, dass unser Bunny-4B/8B auf mehreren Benchmarks die besten großen MLLMs übertrifft. Wir erwarten, dass diese Arbeit der Gemeinschaft ein sauberes und flexibles Open-Source-Werkzeug für weitere Forschung und Entwicklung zur Verfügung stellt. Der Code, die Modelle und die Daten sind unter https://github.com/BAAI-DCAI/Bunny abrufbar.