Beseitigung von Abweichungen durch Abweichung für Daten-Augmentierung und eine allgemeine multimodale Lernmethode für Daten

Ein zentrales Problem im Bereich des Computersehens besteht darin, sich an Farbabweichungen in dynamischen Umgebungen anzupassen. Daher ist die Minimierung der negativen Auswirkungen von Farbabweichungen auf die Vorhersage eine der zentralen Zielsetzungen visueller Aufgaben. Aktuelle Ansätze konzentrieren sich darauf, generative Modelle einzusetzen, um die Trainingsdaten zu erweitern und die Invarianz gegenüber Eingabeveränderungen zu verbessern. Allerdings führen solche Methoden häufig zu neuem Rauschen, was die Nutzensteigerung durch synthetische Daten einschränkt. Um dieses Problem anzugehen, wird in diesem Artikel eine Strategie vorgestellt, die Abweichungen durch Abweichungen kompensiert und als Random Color Dropout (RCD) bezeichnet wird. Die zentrale Hypothese lautet: Wenn zwischen der Abfragebild und dem Galeriebild Farbabweichungen bestehen, werden die Retrieval-Ergebnisse bei einigen Beispielen durch die Vernachlässigung der Farbinformation verbessert. Konkret balanciert diese Strategie die Gewichte zwischen Farbmerkmalen und farbunabhängigen Merkmalen im neuronalen Netzwerk, indem sie während des Trainings teilweise Farbinformationen ausblendet, um die Auswirkungen von Farbabweichungen zu mindern. Der vorgeschlagene RCD lässt sich nahtlos mit verschiedenen bestehenden ReID-Modellen kombinieren, ohne die Lernstrategie zu verändern, und ist auch auf andere Gebiete des Computersehens wie die Objekterkennung übertragbar. Experimente an mehreren ReID-Baselines und drei gängigen großen Datensätzen – Market1501, DukeMTMC und MSMT17 – bestätigen die Wirksamkeit der Methode. Zusätzliche Cross-Domain-Tests zeigen, dass diese Strategie signifikant zur Reduktion der Domänenlücke beiträgt. Um das Funktionsprinzip von RCD besser zu verstehen, wurde die Effektivität aus der Perspektive der Klassifikation analysiert, was darauf hindeutet, dass es in visuellen Aufgaben mit starken Domänenunterschieden möglicherweise vorteilhafter ist, lediglich einen Teil der Farbinformationen zu nutzen, anstatt alle zu nutzen.