Zusammensetzung von Ensembles vortrainierter Modelle durch iterativen Konsens

Große vortrainierte Modelle zeigen unterschiedliche und komplementäre Fähigkeiten, die von den Daten abhängen, auf denen sie trainiert wurden. Sprachmodelle wie GPT-3 sind in der Lage, textbasierte Schlussfolgerungen zu ziehen, können jedoch visuelle Informationen nicht verstehen, während Vision-Modelle wie DALL-E fotorealistische Bilder generieren können, aber komplexe sprachliche Beschreibungen nicht erfassen. In dieser Arbeit stellen wir einen einheitlichen Rahmen vor, um Ensembles verschiedener vortrainierter Modelle zu konstruieren – indem wir die Stärken jedes einzelnen Modells kombinieren, um verschiedene multimodale Aufgaben auf zero-shot-Basis zu lösen. Wir nutzen vortrainierte Modelle als „Generatoren“ oder „Scorer“ und verknüpfen sie über eine geschlossene Schleife mit iterativer Konsensoptimierung. Der Generator erzeugt Vorschläge, während die Scorer iterativ Rückmeldungen liefern, um das Ergebnis zu verfeinern. Diese geschlossene Kommunikation ermöglicht es den Modellen, Fehler anderer Modelle zu korrigieren und die Leistung auf nachgeschalteten Aufgaben erheblich zu steigern, beispielsweise die Genauigkeit bei grundschulischen Mathematikaufgaben um 7,5 % zu verbessern, ohne dass eine Nachtrainierung der Modelle erforderlich ist. Wir zeigen, dass ein Konsens, der durch ein Ensemble von Scorer-Modellen erreicht wird, die Rückmeldung eines einzelnen Scorer-Modells übertrifft, indem die Stärken jedes Expertenmodells genutzt werden. Die Ergebnisse belegen, dass das vorgeschlagene Verfahren als allgemein verwendbarer Rahmen für eine Vielzahl von zero-shot-multimodalen Aufgaben eingesetzt werden kann, beispielsweise bei der Bildgenerierung, der Video-Fragenbeantwortung, der mathematischen Schlussfolgerung und der roboterbasierten Manipulation. Projektseite: https://energy-based-model.github.io/composing-pretrained-models.