HyperAIHyperAI
vor 3 Monaten

Ihr „Flamingo“ ist mein „Bird“: Feinabgestuft, oder nicht

Dongliang Chang, Kaiyue Pang, Yixiao Zheng, Zhanyu Ma, Yi-Zhe Song, Jun Guo
Ihr „Flamingo“ ist mein „Bird“: Feinabgestuft, oder nicht
Abstract

Ob das, was man in Abbildung 1 sieht, ein „Flamingo“ oder einfach nur ein „Vogel“ ist, ist die Frage, die wir in diesem Paper untersuchen. Während die feinkörnige visuelle Klassifikation (FGVC) darauf abzielt, die erste Antwort zu liefern, würde für die Mehrheit der Nichtexperten vermutlich bereits die Antwort „Vogel“ ausreichen. Die eigentliche Frage lautet daher: Wie können wir unterschiedliche feinkörnige Definitionen je nach unterschiedlichem Expertenwissen anpassen? Dazu überdenken wir die traditionelle FGVC-Situation neu – von der Einzellabel-Klassifikation hin zu einer top-down-Durchquerung einer vordefinierten grob-zu-fein-Label-Hierarchie – sodass unsere Antwort folgendermaßen verläuft: „Vogel“ → „Phoenicopteriformes“ → „Phoenicopteridae“ → „Flamingo“. Um dieses neue Problem anzugehen, führen wir zunächst eine umfassende menschliche Studie durch, in der wir bestätigen, dass die meisten Teilnehmer unabhängig von ihrer Selbstwahrnehmung als Experten mehrstufige Labels bevorzugen. Anschließend entdecken wir die entscheidende Intuition: Die Vorhersage grob-körniger Labels fördert die Lernleistung feinkörniger Merkmale, während umgekehrt die feinkörnigen Merkmale die Lernleistung des grobkörnigen Klassifikators verbessern. Diese Erkenntnis ermöglicht es uns, eine sehr einfache, dennoch überraschend effektive Lösung für das neue Problem zu entwerfen, bei der wir (i) spezifische Klassifikationsköpfe pro Ebene nutzen, um grobkörnige und feinkörnige Merkmale zu entkoppeln, und (ii) ermöglichen, dass feinkörnigere Merkmale an der Vorhersage grobkörniger Labels teilnehmen, was wiederum zu einer besseren Entkoppelung beiträgt. Experimente zeigen, dass unsere Methode in der neuen FGVC-Situation überlegene Leistung erzielt und zudem gegenüber bestehenden State-of-the-Art-Verfahren für das traditionelle Einzellabel-FGVC-Problem besser abschneidet. Aufgrund ihrer Einfachheit lässt sich unsere Methode problemlos auf beliebige bestehende FGVC-Frameworks aufbauen und ist parameterfrei.