LVIS Challenge Track Technischer Bericht Lösung mit Platz 1: Verteilungsgleichgewicht und Randverfeinerung für die Segmentierung von Objekten mit großer Vokabulargröße

Dieser Bericht stellt die technischen Details der Team-FuXi-Fresher-Lösung für die LVIS Challenge 2021 vor. Unser Ansatz konzentriert sich auf zwei zentrale Probleme: die Long-Tail-Verteilung sowie die Segmentierungsqualität von Masken und Grenzlinien. Aufbauend auf dem fortschrittlichen HTC-Instanzsegmentierungsverfahren integrieren wir einen Transformer-Backbone (Swin-L) mittels zusammengesetzter Verbindungen, die sich von CBNetv2 inspirieren lassen, um die Baseline-Leistung zu verbessern. Um das Problem der Long-Tail-Verteilung zu mildern, entwickeln wir eine Distribution-Balanced-Methode, die Module für datenbasierte Balance und verlustfunktionale Balance umfasst. Darüber hinaus setzen wir eine Mask- und Grenzlinien-Verfeinerungsmethode ein, die aus Algorithmen zur Maskenbewertung und zur Nachverfeinerung von Masken besteht, um die Segmentierungsqualität weiter zu steigern. Interessanterweise stellen wir fest, dass die Kombination aus früher Stoppung (early stopping) und dem EMA-Verfahren (Exponential Moving Average) eine erhebliche Verbesserung der Ergebnisse ermöglicht. Schließlich erreichen wir durch den Einsatz von Multi-Scale-Testing und die Erhöhung der Obergrenze der pro Bild detektierten Objekte eine Boundary AP von über 45,4 % auf dem Validierungsset der LVIS Challenge 2021. Auf den Testdaten der LVIS Challenge 2021 belegen wir den ersten Platz mit einer AP von 48,1 %. Insbesondere liegt unsere APr-Wert mit 47,5 % sehr nahe an der APf von 48,0 %.