MoCaE: Mixture of Calibrated Experts verbessert die Objekterkennung signifikant

Die Kombination der Stärken vieler bestehender Vorhersager zu einem Mixture of Experts, der seine Einzelkomponenten übertrifft, ist eine effektive Methode zur Leistungssteigerung, ohne neue Architekturen entwickeln oder ein Modell von Grund auf neu trainieren zu müssen. Überraschenderweise stellen wir jedoch fest, dass eine naivere Kombination von Experten-Objektdetektoren in ähnlicher Weise wie bei Deep Ensembles häufig zu einer Verschlechterung der Leistung führt. Wir identifizieren die primäre Ursache hierfür darin, dass die Vorhersagen der Experten nicht mit ihrer tatsächlichen Leistung übereinstimmen – ein Phänomen, das als Miscalibration bezeichnet wird. Folglich dominiert der zuversichtlichste Detektor die endgültigen Vorhersagen, wodurch das Mixture-of-Experts-Modell nicht in der Lage ist, alle Vorhersagen der Experten angemessen zu nutzen. Um dies zu beheben, schlagen wir vor, bei der Konstruktion des Mixture of Experts die Vorhersagen der Experten so zu kombinieren, dass deren individuelle Leistung berücksichtigt wird. Dies erreichen wir, indem wir die Vorhersagen zunächst kalibrieren, bevor wir sie filtern und verfeinern. Wir bezeichnen diesen Ansatz als Mixture of Calibrated Experts und demonstrieren seine Wirksamkeit durch umfangreiche Experimente an fünf unterschiedlichen Detektionsaufgaben mit einer Vielzahl von Detektoren. Unsere Ergebnisse zeigen, dass dieser Ansatz: (i) Objektdetektoren auf COCO und Instanzsegmentierungsverfahren auf LVIS um bis zu ∼2,5 AP verbessert; (ii) state-of-the-art-Leistungen auf COCO test-dev mit 65,1 AP und auf DOTA mit 82,62 AP₅₀ erreicht; (iii) konsistent über einzelne Modelle hinaus auf jüngsten Detektionsaufgaben wie Open Vocabulary Object Detection abschneidet.