Dynamische Metrik-Learning: Hin zum skalierbaren Metrik-Raum zur Berücksichtigung mehrerer semantischer Skalen

Diese Arbeit führt eine neue fundamentale Eigenschaft – nämlich den Dynamikbereich – aus der realen Messtechnik in die tiefe visuelle Erkennung ein. In der Metrologie ist der Dynamikbereich eine grundlegende Eigenschaft eines Messwerkzeugs und drückt dessen Flexibilität aus, unterschiedliche Skalen zu erfassen. Ein größerer Dynamikbereich ermöglicht eine höhere Flexibilität. Auch in der visuellen Erkennung tritt das Problem mehrerer Skalen auf. Verschiedene visuelle Konzepte können unterschiedliche semantische Skalen aufweisen. Beispielsweise besitzen „Tiere“ und „Pflanzen“ eine große semantische Skala, während „Elche“ eine deutlich kleinere aufweisen. Unter einer kleinen semantischen Skala können zwei verschiedene Elche einander sehr \emph{unterschiedlich} erscheinen. Unter einer großen semantischen Skala (z. B. Tiere und Pflanzen) sollten diese beiden Elche jedoch als \emph{ähnlich} bewertet werden. %Wir argumentieren, dass eine solche Flexibilität auch für das tiefe Metrik-Lernen von Bedeutung ist, da verschiedene visuelle Konzepte tatsächlich unterschiedliche semantische Skalen entsprechen.Durch die Einführung des Dynamikbereichs im Bereich des tiefen Metrik-Lernens entsteht eine neue Aufgabe im Bereich des maschinellen Sehens: das Dynamische Metrik-Lernen (Dynamic Metric Learning). Ziel dieses Ansatzes ist es, einen skalierbaren Metrikräum zu erlernen, der visuelle Konzepte über mehrere semantische Skalen hinweg erfassen kann. Basierend auf drei Arten von Bildern – nämlich Fahrzeuge, Tiere und Online-Produkte – erstellen wir drei Datensätze für das Dynamische Metrik-Lernen. Wir benchmarken diese Datensätze mit gängigen Methoden des tiefen Metrik-Lernens und stellen fest, dass das Dynamische Metrik-Lernen äußerst herausfordernd ist. Die Hauptursache liegt in einem Konflikt zwischen verschiedenen Skalen: Die Diskriminativkraft bei kleiner Skala beeinträchtigt oft die Diskriminativkraft bei großer Skala und umgekehrt. Als Nebenbeitrag schlagen wir Cross-Scale Learning (CSL) vor, um diesen Konflikt zu mildern. Wir zeigen, dass CSL die Baseline auf allen drei Datensätzen konsistent verbessert. Die Datensätze und der Quellcode werden öffentlich unter https://github.com/SupetZYK/DynamicMetricLearning bereitgestellt.