Ein einheitlicher Informationsgehalt-Ansatz für die Metrik-Lernung: Kreuzentropie im Vergleich zu Paarverlusten

In jüngster Zeit konzentrierten sich erhebliche Forschungsanstrengungen im Bereich des Deep Metric Learning (DML) auf die Entwicklung komplexer Paarweisen-Distanzverluste, die aufgrund ihrer Optimierungsschwierigkeiten oftmals komplizierte Strategien erfordern, wie beispielsweise Sample-Mining oder Paar-Gewichtung. Der klassische Kreuzentropieverlust für Klassifikation wurde im DML weitgehend vernachlässigt. Auf den ersten Blick scheint die Kreuzentropie mit dem Metrik-Lernen wenig zu tun zu haben, da sie keine explizite Berücksichtigung von Paarweisen Distanzen enthält. Wir führen jedoch eine theoretische Analyse durch, die die Kreuzentropie mit mehreren bekannten und aktuellen Paarweisen Verlustfunktionen verbindet. Unsere Verbindungen basieren auf zwei unterschiedlichen Perspektiven: einerseits auf einer expliziten Optimierungsinsight, andererseits auf diskriminativen und generativen Sichtweisen der gegenseitigen Information zwischen den Labels und den gelernten Merkmalen. Erstens zeigen wir explizit, dass die Kreuzentropie eine obere Schranke für einen neuen Paarweisen Verlust darstellt, dessen Struktur mit verschiedenen bestehenden Paarweisen Verlusten vergleichbar ist: Er minimiert die intra-klassischen Distanzen und maximiert gleichzeitig die inter-klassischen Distanzen. Folglich kann die Minimierung der Kreuzentropie als eine Näherung durch Schranken-Optimierung (oder Majorize-Minimize) interpretiert werden, um diesen Paarweisen Verlust zu minimieren. Zweitens zeigen wir, dass die Minimierung der Kreuzentropie im Allgemeinen äquivalent ist zur Maximierung der gegenseitigen Information, zu der wir mehrere bekannte Paarweisen Verluste in Beziehung setzen. Darüber hinaus zeigen wir, dass verschiedene Standard-Paarweisen Verluste explizit über Schrankenbeziehungen miteinander verknüpft werden können. Unsere Ergebnisse deuten darauf hin, dass die Kreuzentropie eine geeignete Proxy-Funktion darstellt, um die gegenseitige Information zu maximieren – wie dies auch Paarweisen Verluste tun – jedoch ohne die Notwendigkeit komplizierter Heuristiken wie Sample-Mining. Unsere Experimente an vier etablierten DML-Benchmarks stützen unsere Erkenntnisse eindeutig. Wir erzielen state-of-the-art Ergebnisse und überbieten dabei neuere und komplexere DML-Methoden.