Watermarking für die Out-of-Distribution-Erkennung

Die Erkennung von außerhalb der Verteilung liegenden (out-of-distribution, OOD) Daten zielt darauf ab, OOD-Daten anhand von Darstellungen zu identifizieren, die aus gut trainierten tiefen Modellen extrahiert wurden. Allerdings ignorieren bestehende Methoden weitgehend die Umprogrammierbarkeit tiefgelegener Modelle und können daher deren inhärente Stärke nicht vollständig ausschöpfen: Ohne die Parameter eines gut trainierten tiefen Modells zu verändern, lässt sich dieses Modell über datenbasierte Manipulationen (z. B. durch Hinzufügen einer spezifischen Merkmalsstörung zu den Daten) für eine neue Aufgabe umprogrammieren. Diese Eigenschaft motiviert uns, ein Klassifikationsmodell so umzuprogrammieren, dass es hervorragend in der OOD-Erkennung (einer neuen Aufgabe) abschneidet. In dieser Arbeit stellen wir daher eine allgemeine Methodik namens „Watermarking“ vor. Konkret lernen wir ein einheitliches Muster, das auf die Merkmale der ursprünglichen Daten aufgelegt wird, wodurch die Erkennungskapazität des Modells nach dem Watermarking erheblich gesteigert wird. Umfangreiche Experimente bestätigen die Wirksamkeit des Watermarking und unterstreichen die Bedeutung der Umprogrammierbarkeit tiefer Modelle für die OOD-Erkennung.