AiATrack: Aufmerksamkeit in der Aufmerksamkeit für die visuelle Verfolgung mit Transformers

Transformer-Verfolgungssysteme haben kürzlich beeindruckende Fortschritte gemacht, wobei das Aufmerksamkeitsmechanismus eine wichtige Rolle spielt. Dennoch kann die unabhängige Berechnung von Korrelationen im Aufmerksamkeitsmechanismus zu verrauschten und unscharfen Aufmerksamkeitsgewichten führen, was eine weitere Leistungssteigerung hemmt. Um dieses Problem zu lösen, schlagen wir ein Modul "Aufmerksamkeit in der Aufmerksamkeit" (Attention in Attention, AiA) vor, das durch die Suche nach Übereinstimmungen unter allen Korrelationsvektoren geeignete Korrelationen verstärkt und fehlerhafte unterdrückt. Unser AiA-Modul kann einfach sowohl in Selbst-Aufmerksamkeitsblöcken als auch in Kreuz-Aufmerksamkeitsblöcken angewendet werden, um die Merkmalsaggregation und Informationsverbreitung für visuelle Verfolgung zu verbessern. Darüber hinaus schlagen wir einen vereinfachten Transformer-Verfolgungsrahmen vor, den wir AiATrack nennen, indem wir effiziente Merkmalswiederverwendung und Ziel-Hintergrund-Embeddings einführen, um temporale Referenzen optimal auszunutzen. Experimente zeigen, dass unser Tracker auf sechs Verfolgungsbenchmarks topaktuelle Leistung erzielt und dabei in Echtzeit läuft.