Prismer: Ein Vision-Sprache-Modell mit Multi-Task-Experten

Kürzlich entwickelte visuell-sprachliche Modelle haben beeindruckende multimodale Generierungsfähigkeiten gezeigt. Allerdings erfordern sie typischerweise die Schulung großer Modelle auf riesigen Datensätzen. Als skalierbarere Alternative stellen wir Prismer vor, ein daten- und parameter-effizientes visuell-sprachliches Modell, das einen Ensemble aus auf spezifische Aufgaben zugeschnittenen Experten nutzt. Prismer erfordert lediglich die Schulung einer geringen Anzahl von Komponenten, wobei der Großteil der Netzwerkgewichte aus mehreren leicht verfügbaren, vortrainierten Experten entnommen und während des Trainings fixiert bleibt. Durch die Nutzung von Experte aus einer Vielzahl von Domänen zeigen wir, dass Prismer diese Expertenwissen effizient sammeln und an verschiedene visuell-sprachliche Schlussfolgerungsaufgaben anpassen kann. In unseren Experimenten demonstrieren wir, dass Prismer eine Leistung im Fine-Tuning und Few-Shot Learning erreicht, die mit aktuellen State-of-the-Art-Modellen konkurrieren kann, während dabei bis zu zwei Größenordnungen weniger Trainingsdaten benötigt werden. Der Quellcode ist unter https://github.com/NVlabs/prismer verfügbar.