Counterfaktisches Aufmerksamkeitslernen für feingranulare visuelle Kategorisierung und Wiedererkennung

Das Attention-Mechanismus-Modell hat großes Potenzial bei feinkörnigen visuellen Erkennungsaufgaben gezeigt. In dieser Arbeit stellen wir eine Methode des kontrafaktischen Aufmerksamkeitslernens vor, um effektivere Aufmerksamkeit auf der Grundlage von kausaler Inferenz zu erlernen. Im Gegensatz zu den meisten bestehenden Methoden, die die visuelle Aufmerksamkeit auf der Basis herkömmlicher Wahrscheinlichkeiten lernen, schlagen wir vor, die Aufmerksamkeit mit kontrafaktischer Kausalität zu erlernen. Dies bietet ein Werkzeug zur Messung der Aufmerksamkeitsqualität und einen leistungsstarken Überwachungssignal, um den Lernprozess zu steuern. Insbesondere analysieren wir durch kontrafaktische Intervention den Einfluss der gelernten visuellen Aufmerksamkeit auf die Netzwerkvorhersage und maximieren diesen Einfluss, um das Netzwerk dazu anzuregen, nützlichere Aufmerksamkeit für feinkörnige Bilderkennung zu erlernen. Empirisch bewerten wir unsere Methode anhand einer Vielzahl von feinkörnigen Erkennungsaufgaben, bei denen die Aufmerksamkeit eine entscheidende Rolle spielt, einschließlich feinkörniger Bildklassifizierung, Person-Wiedererkennung und Fahrzeug-Wiedererkennung. Die konsistenten Verbesserungen bei allen Benchmarks belegen die Effektivität unserer Methode. Der Quellcode ist unter https://github.com/raoyongming/CAL verfügbar.