2달 전

추론 시간에 주의력 공학을 활용한 이미지 클러스터링 개선 및 아티팩트 감소

Nakamura, Kazumoto ; Nozawa, Yuji ; Lin, Yu-Chieh ; Nakata, Kengo ; Ng, Youyang
추론 시간에 주의력 공학을 활용한 이미지 클러스터링 개선 및 아티팩트 감소
초록

본 논문의 목표는 재학습이나 미세 조정(fine-tuning) 없이 사전 학습된 비전 트랜스포머(Vision Transformer, ViT) 모델, 특히 DINOv2의 이미지 클러스터링 작업 성능을 향상시키는 것입니다. 모델 크기가 증가함에 따라 멀티헤드 어텐션(Multi-Head Attention)의 패치에서 고노름(high-norm) 아티팩트(anomaly)가 나타나는 문제를 관찰하였습니다. 이 아티팩트는 제로샷(zero-shot) 이미지 클러스터링에서 정확도가 감소하는 원인으로 작용합니다. 이러한 아티팩트는 어텐션 맵에서 다른 패치 토큰에 비해 과도하게 큰 값을 가지는 특징을 보입니다. 이러한 아티팩트를 해결하기 위해, 추론 시 어텐션 엔지니어링(Inference-Time Attention Engineering, ITAE)이라는 접근법을 제안합니다. ITAE는 추론 중에 어텐션 함수를 조작하여 멀티헤드 어텐션의 Query-Key-Value(QKV) 패치 중 하나를 조사하고, 사전 학습된 모델 내에서 해당 아티팩트의 어텐션 값을 감소시킵니다. ITAE는 잠재 공간에서 더 표현력 있는 특성을 보여주며, 여러 데이터셋에서 클러스터링 정확도를 개선하였습니다. 본 연구 결과는 ITAE가 재학습이나 미세 조정 없이 사전 학습된 ViT 모델의 아티팩트를 줄이고 클러스터링 작업의 모델 성능을 향상시키는 실용적인 해결책임을 강조합니다.

추론 시간에 주의력 공학을 활용한 이미지 클러스터링 개선 및 아티팩트 감소 | 최신 연구 논문 | HyperAI초신경