Label-Retrieval-Augmented Diffusion Models zur Lernung aus verrauschten Labels

Das Lernen aus verrauschten Etiketten ist ein zentrales und lang bestehendes Problem im maschinellen Lernen für reale Anwendungen. Eine der Hauptforschungsrichtungen konzentriert sich auf das Lernen eines Etikettenskorrekturmodells, um potenziell verrauschte Etiketten zu reinigen. Diese Ansätze basieren jedoch typischerweise auf strengen Annahmen und sind auf bestimmte Arten von Etikettenrauschen beschränkt. In diesem Paper reformulieren wir das Problem des Etikettenrauschens aus einer generativen Modellperspektive, d. h., Etiketten werden durch schrittweise Verfeinerung einer anfänglichen zufälligen Schätzung generiert. Diese neue Perspektive ermöglicht es unmittelbar, bestehende leistungsfähige Diffusionsmodelle nahtlos zum Lernen des stochastischen Generierungsprozesses einzusetzen. Sobald die generative Unsicherheit modelliert ist, können wir zur Klassifikationsinferenz die Maximum-Likelihood-Schätzung der Etiketten verwenden. Um die Auswirkungen verrauschter Etiketten zu mildern, schlagen wir das Label-Retrieval-Augmented (LRA)-Diffusionsmodell vor, das die Nachbarschaftskonsistenz nutzt, um effektiv pseudo-reine Etiketten für den Trainingsprozess der Diffusion zu konstruieren. Unser Modell ist flexibel und allgemein einsetzbar und erlaubt die einfache Integration verschiedener Arten von bedingter Information, beispielsweise die Nutzung vortrainierter Modelle, um die Modellleistung weiter zu steigern. Umfassende Experimente werden durchgeführt, um die Leistung zu evaluieren. Unser Modell erreicht auf allen Standard-Benchmark-Datensätzen für reale Anwendungen neue State-of-the-Art (SOTA)-Ergebnisse. Besonders bemerkenswert ist, dass die Integration bedingter Information aus dem leistungsfähigen CLIP-Modell in vielen Fällen die aktuelle SOTA-Genauigkeit um 10 bis 20 absolute Punkte steigert.