2ヶ月前

推論時のアテンションエンジニアリングを用いた画像クラスタリングの改善とアーティファクト低減

Nakamura, Kazumoto ; Nozawa, Yuji ; Lin, Yu-Chieh ; Nakata, Kengo ; Ng, Youyang

要約

本論文の目的は、事前学習済みのビジョントランスフォーマー（ViT）モデル、特にDINOv2において、再学習や微調整を必要とせずに画像クラスタリングタスクの性能を向上させることである。モデルサイズが増加すると、マルチヘッドアテンションのパッチに高ノルムの異常アーティファクトが現れる。私たちはこの異常がゼロショット画像クラスタリングにおける精度低下につながることを観察した。これらのアーティファクトは、他のパッチトークンと比較してアテンションマップに著しく大きな値を持つ特徴を持つ。これらのアーティファクトに対処するために、推論時のアテンションエンジニアリング（Inference-Time Attention Engineering: ITAE）という手法を提案する。具体的には、マルチヘッドアテンションのQuery-Key-Value（QKV）パッチの1つを調査し、事前学習済みモデル内の対応するアテンション値を減衰させる。ITAEは潜在空間でより表現力豊かな特徴を示すことで、複数のデータセットでのクラスタリング精度向上を実証している。私たちの研究結果は、ITAEが再学習や微調整なしで事前学習済みViTモデルにおけるアーティファクト削減とクラスタリングタスクでのモデル性能向上に実用的な解決策となる可能性があることを強調している。