vor 17 Tagen

Multi-Label Iteratives Lernen für die Bildklassifikation mit Label-Ambiguität

Sai Rajeswar, Pau Rodriguez, Soumye Singhal, David Vazquez, Aaron Courville

Abstract

Der Transferlernen von großskaligen vortrainierten Modellen ist für zahlreiche Aufgaben im Bereich des maschinellen Sehens unverzichtbar geworden. Kürzlich veröffentlichte Studien haben gezeigt, dass Datensätze wie ImageNet schwach beschriftet sind, da Bilder mit mehreren Objektklassen lediglich einer einzigen Kategorie zugeordnet werden. Diese Mehrdeutigkeit führt dazu, dass Modelle tendenziell eine einzelne Vorhersage bevorzugen, was wiederum die Unterdrückung von Klassen begünstigen kann, die in den Daten häufig gemeinsam auftreten. Inspiriert durch die Literatur zum Sprachentstehungsprozess, schlagen wir ein mehrfach-label-iteratives Lernen (Multi-Label Iterated Learning, MILe) vor, um die induktiven Voreingenommenheiten des mehrfach-label-Lernens aus einzelnen Labels mittels des Rahmens des iterativen Lernens zu integrieren. MILe ist ein einfaches, jedoch wirksames Verfahren, das durch die Übertragung binärer Vorhersagen über aufeinanderfolgende Generationen von Lehrer- und Schülermodellen mit einem Lernengpass eine mehrfach-label-basierte Beschreibung eines Bildes aufbaut. Experimente zeigen, dass unser Ansatz systematische Vorteile bei der ImageNet-Genauigkeit sowie beim ReaL-F1-Score erzielt, was darauf hindeutet, dass MILe die Label-Mehrdeutigkeit besser bewältigt als das herkömmliche Trainingsverfahren – selbst bei der Feinabstimmung von selbstüberwachten Gewichten. Außerdem zeigen wir, dass MILe effektiv zur Reduktion von Label-Rauschen beiträgt und eine state-of-the-art-Leistung auf realen, großskaligen, verrauschten Datensätzen wie WebVision erreicht. Zudem verbessert MILe die Leistung in klassen-inkrementellen Szenarien wie IIRC und ist robust gegenüber Verteilungsverschiebungen. Code: https://github.com/rajeswar18/MILe