Neben der reinen Stärke: Maßgeschneiderte Ensembles für verallgemeinerte Vision-Language-Modelle

Die Feinabstimmung vortrainierter Vision-Sprache-Modelle (VLMs), beispielsweise CLIP, für die Offenwelt-Verallgemeinerung gewinnt aufgrund ihres praktischen Nutzens zunehmend an Beliebtheit. Dennoch sind die Leistungssteigerungen begrenzt, wenn allein auf komplizierte algorithmische Entwürfe für ein einzelnes Modell zurückgegriffen wird, selbst wenn dieses eine starke Leistung erbringt, wie beispielsweise CLIP-ViT-B/16. In dieser Arbeit untersuchen wir erstmals das kooperative Potenzial, viel schwächere VLMs einzusetzen, um die Verallgemeinerungsfähigkeit eines robusten Einzelmodells zu verbessern. Die positiven Ergebnisse motivieren uns, das Verallgemeinerungsproblem aus einer neuen Perspektive anzugehen, nämlich durch einen Ensemble-Ansatz vortrainierter VLMs. Wir stellen drei maßgeschneiderte Ensemble-Strategien vor, jeweils angepasst an eine spezifische Anwendungssituation. Zunächst führen wir den Zero-Shot-Ensemble vor, der die Logits verschiedener Modelle automatisch basierend auf deren Vertrauenswürdigkeit anpasst, wenn nur vortrainierte VLMs zur Verfügung stehen. Darüber hinaus schlagen wir für Szenarien mit zusätzlichen Few-Shot-Beispielen den training-free und tuning-Ensemble vor, der je nach verfügbaren Rechenressourcen Flexibilität bietet. Die vorgeschlagenen Ensemble-Strategien werden auf Zero-Shot-, Base-to-New- und Cross-Dataset-Verallgemeinerung evaluiert und erreichen neue State-of-the-Art-Ergebnisse. Insbesondere stellt diese Arbeit einen ersten Schritt dar, die Verallgemeinerungsleistung von VLMs durch Ensemble-Ansätze zu verbessern. Der Quellcode ist unter https://github.com/zhiheLu/Ensemble_VLM.git verfügbar.