Lösung des 1. Platzierungs im LVIS Challenge 2020: Ein guter Bounding Box ist kein Garant für einen guten Maskenresultat

Dieser Artikel stellt die Lösungen des Teams lvisTraveler für die LVIS Challenge 2020 vor. In dieser Arbeit werden zwei zentrale Eigenschaften des LVIS-Datensatzes berücksichtigt: die langschwanzige Verteilung der Klassen und die hohe Qualität der Instanzsegmentierungsmasken. Wir implementieren einen zweistufigen Trainingspipeline-Ansatz. Im ersten Stadium nutzen wir EQL (Enhanced Quality Learning) und Self-Training, um generalisierte Darstellungen zu erlernen. Im zweiten Stadium setzen wir Balanced GroupSoftmax ein, um den Klassifikator zu verbessern, und stellen eine neuartige Vorschlagszuweisungsstrategie sowie eine neue balancierte Maskenverlustfunktion für den Masken-Head vor, um präzisere Maskenvorhersagen zu erzielen. Abschließend erreichen wir eine AP von 41,5 auf dem Val-Set und 41,2 auf dem Test-Dev-Set von LVIS v1.0, wobei wir die Baseline auf Basis von X101-FPN-MaskRCNN erheblich übertreffen.