MixTeacher: Gewinnung vielversprechender Labels mit einem Lehrer unterschiedlicher Skalen für semi-supervised Objektdetektion

Die Skalenvariation zwischen Objektinstanzen stellt weiterhin eine zentrale Herausforderung im Objektdetektionsproblem dar. Trotz der bemerkenswerten Fortschritte moderner Detektionsmodelle zeigt sich diese Schwierigkeit insbesondere im semi-supervised Fall besonders deutlich. Während bestehende semi-supervised Objektdetektionsmethoden strenge Bedingungen verwenden, um hochwertige Pseudolabels aus den Netzwerkvorhersagen zu filtern, beobachten wir, dass Objekte mit extremen Skalen tendenziell eine geringe Konfidenz aufweisen, was zu einem Mangel an positiver Supervision für diese Objekte führt. In diesem Artikel stellen wir einen neuartigen Ansatz vor, der das Problem der Skalenvariation durch die Einführung eines gemischten Skalen-Teachers zur Verbesserung der Pseudolabelgenerierung und der skaleninvarianten Lernfähigkeit adressiert. Zusätzlich schlagen wir eine Methode zum Mining von Pseudolabels vor, die auf der Score-Verbesserung von Vorhersagen über verschiedene Skalen basiert und von besseren Vorhersagen aus gemischten Skalenmerkmalen profitiert. Unsere umfangreichen Experimente auf den Benchmarks MS COCO und PASCAL VOC unter verschiedenen semi-supervised Szenarien zeigen, dass unsere Methode neue State-of-the-Art-Leistungen erzielt. Der Quellcode und die Modelle sind unter \url{https://github.com/lliuz/MixTeacher} verfügbar.