Langschwänzige Erkennung durch Lernen aus latenten Kategorien

In dieser Arbeit behandeln wir die herausfordernde Aufgabe der langen Schwanz-Bilderkennung. Bisherige Ansätze zur langen Schwanz-Erkennung konzentrieren sich häufig auf Datenverstärkungs- oder Ausgleichsstrategien für die sogenannten „Tail-Klassen“, um während des Trainings mehr Aufmerksamkeit auf diese Klassen zu richten. Aufgrund der begrenzten Anzahl an Trainingsbildern für die Tail-Klassen bleibt jedoch die Vielfalt der Bildrepräsentationen dieser Klassen eingeschränkt, was zu schlechten Merkmalsdarstellungen führt. In dieser Arbeit vermuten wir, dass gemeinsame latente Merkmale zwischen Head- und Tail-Klassen genutzt werden können, um eine bessere Merkmalsdarstellung zu erreichen. Darauf aufbauend stellen wir eine Methode namens Latent Categories based long-tail Recognition (LCReg) vor. Konkret schlagen wir vor, eine Reihe von klassenunabhängiger latenter Merkmale zu lernen, die sowohl zwischen Head- als auch Tail-Klassen geteilt werden. Anschließend erweitern wir indirekt die Vielfalt der Trainingsbeispiele durch semantische Datenverstärkung auf diesen latenten Merkmalen. Umfassende Experimente an fünf Datensätzen für die lange Schwanz-Bilderkennung zeigen, dass unsere vorgeschlagene LCReg-Methode im Vergleich zu früheren Ansätzen erheblich besser abschneidet und state-of-the-art-Ergebnisse erzielt.