HyperAIHyperAI
vor 3 Monaten

NGC: Ein einheitlicher Rahmen für das Lernen mit offenweltbaren, verrauschten Daten

Zhi-Fan Wu, Tong Wei, Jianwen Jiang, Chaojie Mao, Mingqian Tang, Yu-Feng Li
NGC: Ein einheitlicher Rahmen für das Lernen mit offenweltbaren, verrauschten Daten
Abstract

Die Existenz von verrauschten Daten ist sowohl im Trainings- als auch im Testphase von maschinellen Lernsystemen weit verbreitet und führt unweigerlich zu einer Verschlechterung der Modellleistung. In den letzten zehn Jahren wurden zahlreiche Arbeiten zu Lernen mit in-distribution (IND) verrauschten Etiketten konzentriert, d. h. einige Trainingsbeispiele erhalten falsche Etiketten, die nicht ihren tatsächlichen Klassen entsprechen. Dennoch ist es in realen Anwendungsszenarien notwendig, auch den Einfluss von out-of-distribution (OOD) Beispielen zu berücksichtigen, also Datenpunkten, die keiner bekannten Klasse zugeordnet sind, was bisher noch nicht ausreichend erforscht wurde. Um diese Lücke zu schließen, untersuchen wir ein neues Problemsetup, das sogenannte Learning with Open-world Noisy Data (LOND). Ziel von LOND ist es, gleichzeitig einen Klassifikator und einen OOD-Detektor aus Datensätzen mit gemischten IND- und OOD-Rauschen zu lernen. In diesem Beitrag stellen wir einen neuen graphenbasierten Ansatz vor, den Noisy Graph Cleaning (NGC), der saubere Beispiele durch Ausnutzung der geometrischen Struktur der Daten und der Modellvorhersagezuverlässigkeit sammelt. Ohne zusätzlichen Trainingsaufwand kann NGC im Testphase direkt anhand der gelernten Klassenprototypen OOD-Beispiele detektieren und ablehnen. Wir führen Experimente auf mehreren Benchmarks mit unterschiedlichen Rauschtypen durch, und die Ergebnisse belegen die überlegene Leistung unseres Ansatzes gegenüber aktuellen State-of-the-Art-Methoden.