Dual Cross-Attention Learning für feinkörnige visuelle Kategorisierung und Objekt-Re-Identifikation

In jüngster Zeit haben selbst-Attention-Mechanismen beeindruckende Leistungen bei verschiedenen Aufgaben im Bereich NLP und CV gezeigt, da sie helfen, sequenzielle Merkmale zu erfassen und globale Informationen zu gewinnen. In dieser Arbeit untersuchen wir, wie man Selbst-Attention-Module erweitern kann, um feinabgestimmte Merkmals-Embeddings besser zu lernen, um feinabgestufte Objekte wie verschiedene Vogelarten oder Personenidentitäten zu erkennen. Dazu schlagen wir einen dualen Cross-Attention-Lernansatz (DCAL) vor, der die Selbst-Attention-Lernung ergänzt. Zunächst führen wir die globale-lokale Cross-Attention (GLCA) ein, um die Interaktionen zwischen globalen Bildern und lokalen hochreaktiven Regionen zu verstärken, was hilft, räumliche, differenzierende Hinweise für die Erkennung zu stärken. Zweitens schlagen wir die paarweise Cross-Attention (PWCA) vor, um Interaktionen zwischen Bildpaaren herzustellen. PWCA kann das Aufmerksamkeitslernen eines Bildes regularisieren, indem es ein anderes Bild als Ablenkung (Distractor) verwendet und während der Inferenz entfernt wird. Wir beobachten, dass DCAL irreführende Aufmerksamkeiten reduziert und die Aufmerksamkeitsantwort verbreitet, um komplementäre Teile für die Erkennung zu entdecken. Wir führen umfangreiche Evaluierungen auf dem Gebiet der feinabgestuften visuellen Kategorisierung und Objekt-Re-Identifikation durch. Experimente zeigen, dass DCAL mit den derzeit besten Methoden konkurriert und mehrere Selbst-Attention-Baselines konsistent verbessert, beispielsweise DeiT-Tiny und ViT-Base auf MSMT17 um jeweils 2,8 % und 2,4 % mAP übertrifft.