HyperAIHyperAI
vor 2 Monaten

Verbesserung der Bildclustering durch Reduzierung von Artefakten mittels Inferenzzeit-Aufmerksamkeitssteuerung

Nakamura, Kazumoto ; Nozawa, Yuji ; Lin, Yu-Chieh ; Nakata, Kengo ; Ng, Youyang
Verbesserung der Bildclustering durch Reduzierung von Artefakten mittels Inferenzzeit-Aufmerksamkeitssteuerung
Abstract

Das Ziel dieser Arbeit ist es, die Leistung vortrainierter Vision Transformer (ViT)-Modelle, insbesondere DINOv2, bei der Bildkategorisierung ohne erneutes Training oder Feinabstimmung zu verbessern. Mit zunehmender Modellgröße treten in den Patches der Multi-Head-Attention anomale Hoch-Norm-Artefakte auf. Wir beobachten, dass diese Artefakte zu einer verringerten Genauigkeit bei der Null-Shot-Bildkategorisierung führen. Diese Artefakte zeichnen sich durch unverhältnismäßig hohe Werte im Aufmerksamkeitsdiagramm im Vergleich zu anderen Patch-Token aus. Um diese Artefakte zu bekämpfen, schlagen wir einen Ansatz vor, der als Inferenzzeit-Aufmerksamkeitsingenieurwesen (ITAE) bezeichnet wird und die Aufmerksamkeitsfunktion während der Inferenz manipuliert. Insbesondere identifizieren wir die Artefakte durch die Untersuchung eines der Query-Key-Value (QKV)-Patches in der Multi-Head-Attention und dämpfen deren entsprechende Aufmerksamkeitswerte innerhalb der vortrainierten Modelle. ITAE zeigt eine verbesserte Kategorisierungs-genauigkeit auf mehreren Datensätzen, indem es expressivere Merkmale im Latenten Raum hervorbringt. Unsere Ergebnisse unterstreichen das Potenzial von ITAE als praktische Lösung zur Reduzierung von Artefakten in vortrainierten ViT-Modellen und zur Verbesserung der Modellleistung bei Kategorisierungsaufgaben ohne erneutes Training oder Feinabstimmung.

Verbesserung der Bildclustering durch Reduzierung von Artefakten mittels Inferenzzeit-Aufmerksamkeitssteuerung | Neueste Forschungsarbeiten | HyperAI