HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der Bildclustering durch Reduzierung von Artefakten mittels Inferenzzeit-Aufmerksamkeitssteuerung

Kazumoto Nakamura Yuji Nozawa Yu-Chieh Lin Kengo Nakata Youyang Ng

Zusammenfassung

Das Ziel dieser Arbeit ist es, die Leistung vortrainierter Vision Transformer (ViT)-Modelle, insbesondere DINOv2, bei der Bildkategorisierung ohne erneutes Training oder Feinabstimmung zu verbessern. Mit zunehmender Modellgröße treten in den Patches der Multi-Head-Attention anomale Hoch-Norm-Artefakte auf. Wir beobachten, dass diese Artefakte zu einer verringerten Genauigkeit bei der Null-Shot-Bildkategorisierung führen. Diese Artefakte zeichnen sich durch unverhältnismäßig hohe Werte im Aufmerksamkeitsdiagramm im Vergleich zu anderen Patch-Token aus. Um diese Artefakte zu bekämpfen, schlagen wir einen Ansatz vor, der als Inferenzzeit-Aufmerksamkeitsingenieurwesen (ITAE) bezeichnet wird und die Aufmerksamkeitsfunktion während der Inferenz manipuliert. Insbesondere identifizieren wir die Artefakte durch die Untersuchung eines der Query-Key-Value (QKV)-Patches in der Multi-Head-Attention und dämpfen deren entsprechende Aufmerksamkeitswerte innerhalb der vortrainierten Modelle. ITAE zeigt eine verbesserte Kategorisierungs-genauigkeit auf mehreren Datensätzen, indem es expressivere Merkmale im Latenten Raum hervorbringt. Unsere Ergebnisse unterstreichen das Potenzial von ITAE als praktische Lösung zur Reduzierung von Artefakten in vortrainierten ViT-Modellen und zur Verbesserung der Modellleistung bei Kategorisierungsaufgaben ohne erneutes Training oder Feinabstimmung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung der Bildclustering durch Reduzierung von Artefakten mittels Inferenzzeit-Aufmerksamkeitssteuerung | Paper | HyperAI