Langschwänzige mehrfachbeschriftete visuelle Erkennung durch kooperatives Training auf uniformen und neu ausgewogenen Stichproben

Die Verteilung langschwänziger Daten ist bei vielen Aufgaben der multilabelbasierten visuellen Erkennung verbreitet, und die direkte Verwendung solcher Daten zum Training führt häufig zu einer relativ geringen Leistungsfähigkeit auf den sogenannten Tail-Klassen. Während die Rebalancierung der Datensammlung die Leistung auf den Tail-Klassen verbessern kann, kann sie gleichzeitig die Leistung auf den Head-Klassen beeinträchtigen, insbesondere aufgrund von Label-Koexistenz. In diesem Artikel stellen wir einen neuen Ansatz vor, der uniforme und rebalancierte Datensammlung kollaborativ nutzt, wodurch sich die Leistung sowohl auf Head- als auch auf Tail-Klassen verbessert. Konkret entwerfen wir ein visuelles Erkennungsnetzwerk mit zwei Zweigen: Der eine Zweig verwendet uniforme Sammlung als Eingabe, während der andere Zweig rebalancierte Sammlung als Eingabe erhält. Für jeden Zweig führen wir die visuelle Erkennung mit einer binären Kreuzentropie-basierten Klassifikationsverlustfunktion unter Verwendung von lernbaren Logit-Kompensationen durch. Darüber hinaus definieren wir einen neuen Querzweig-Verlust, um die Konsistenz sicherzustellen, wenn dasselbe Eingabebild durch beide Zweige verarbeitet wird. Wir führen umfangreiche Experimente auf den Datensätzen VOC-LT und COCO-LT durch. Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz die bisherigen State-of-the-Art-Methoden bei der Erkennung langschwänziger multilabeliger visueller Daten signifikant übertrifft.