16日前

対照的言語-画像事前学習の説明可能性に関する詳細な検討

Yi Li, Hualiang Wang, Yiqun Duan, Jiheng Zhang, Xiaomeng Li
対照的言語-画像事前学習の説明可能性に関する詳細な検討
要約

対照的言語・画像事前学習(Contrastive Language-Image Pre-training, CLIP)は、多様なタスクにおいて顕著な効果を示す強力な視覚・言語モデルである。しかし、我々はその説明可能性(explainability)にいくつかの問題が存在することを特定した。これらの問題は、モデルの信頼性を損なうとともに、関連するタスクにおける応用能力を制限している。具体的には、CLIPが前景ではなく背景領域に注目しがちな傾向があり、可視化結果において関係のない位置にノイズ混じりの活性化が生じることが明らかになった。この現象は、クラス注意マップ(Class Activation Map, CAM)に基づく従来の説明可能性手法と矛盾する。従来手法では、グローバルなラベル監督のもとでアライメント(対応)を必要とせずに、モデルが前景領域を明確に強調できるはずである。これらの問題に対処するため、我々はCLIPのアーキテクチャおよび特徴量の詳細な分析に取り組んだ。その結果、元の自己注意機構(self-attention)が一貫性のない意味領域を結びつけており、これが逆方向の可視化結果を引き起こしていることが分かった。また、ノイズ混じりの活性化は、カテゴリ間の冗長な特徴量に起因していることも明らかになった。これらの知見を基に、我々は「CLIP Surgery」と呼ばれる新しい手法を提案する。これは、従来のCAM手法のように追加のファインチューニングを必要とせずに、推論アーキテクチャおよび特徴量に対して手術のような修正を加えることで、信頼性の高いCAMを実現する方法である。このアプローチは、CLIPの説明可能性を大幅に向上させ、既存手法を大きく上回る性能を達成した。さらに、マルチモーダルな可視化を可能にし、追加のアライメントなしに、元のCLIPのオープンボリューム(open-vocabulary)タスクへの対応能力を拡張することも可能となった。コードは以下のURLから公開されている:https://github.com/xmed-lab/CLIP_Surgery

対照的言語-画像事前学習の説明可能性に関する詳細な検討 | 最新論文 | HyperAI超神経