Ambiguität-resistientes semi-supervisiertes Lernen für dichte Objekterkennung

Mit grundlegenden Techniken des semi-überwachten Objekterkennens (SSOD) erzielen einstufige Detektoren im Vergleich zu zweistufigen Clustern generell begrenzte Verbesserungen. Experimentell haben wir herausgefunden, dass die Ursache in zwei Arten von Unschärfen liegt: (1) Selektionsunschärfe, bei der ausgewählte Pseudolabels weniger genau sind, da Klassifikationsscores die Lokalisierungsqualität nicht angemessen widerspiegeln. (2) Zuordnungsunschärfe, bei der Stichproben mit unpassenden Labels in der Zuordnung von Pseudolabels verbunden werden, da die Strategie durch übersehenen Objekten und ungenaue Pseudoboxes irreführt. Um diese Probleme anzugehen, schlagen wir eine Unschärfewiderstandende Semi-überwachte Lernmethode (ARSL) für einstufige Detektoren vor. Insbesondere zur Milderung der Selektionsunschärfe wird die gemeinsame Konfidenzschätzung (Joint-Confidence Estimation, JCE) vorgeschlagen, um die Klassifikations- und Lokalisierungsqualität der Pseudolabels zusammen zu quantifizieren. Was die Zuordnungsunschärfe betrifft, wird die Aufgaben-getrennte Zuordnung (Task-Separation Assignment, TSA) eingeführt, um Labels auf Basis von Pixel-Level-Vorhersagen statt auf Basis von unzuverlässigen Pseudoboxes zu vergeben. Sie setzt eine "Teile-und-herrsche"-Strategie ein und nutzt Positives getrennt für die Klassifikations- und Lokalisierungsaufgabe, was sie gegenüber der Zuordnungsunschärfe robuster macht. Ausführliche Experimente zeigen, dass ARSL die Unschärfen effektiv mildert und den aktuellen Stand der Technik in Bezug auf SSOD-Leistung auf MS COCO und PASCAL VOC erreicht. Der Quellcode ist unter https://github.com/PaddlePaddle/PaddleDetection abrufbar.