3ヶ月前

テキストと画像が一致しない場合:異常検出における言語-画像類似度スコアのバイアス補正

Adam Goodge, Bryan Hooi, Wee Siong Ng
テキストと画像が一致しない場合:異常検出における言語-画像類似度スコアのバイアス補正
要約

対照的言語・画像事前学習(Contrastive Language-Image Pre-training, CLIP)は、画像とテキストの入力埋め込みを一致させる手法により、さまざまな下流タスクで優れた性能を発揮しており、異常検出分野においても大きな可能性を秘めている。しかし、我々の実証実験により、テキスト入力の埋め込みが予期せず非常に密にクラスタリングされ、画像埋め込みから大きく離れていることが明らかになった。これは、CLIPモデルが画像・テキストペアを対照的に一致させるという学習目標と相反する現象である。本研究では、この現象が「類似度バイアス(similarity bias)」を引き起こすことを示す。このバイアスにより、正常ラベルのテキスト埋め込みと画像間の類似度に偏りが生じ、誤って正常と判定される(偽陰性)および異常と誤判定される(偽陽性)エラーが発生する。このバイアスを解消するため、我々は新たな手法BLISS(Bias-aware Learning with an External Set of Texts)を提案する。BLISSは、外部の補助的テキストデータセットを用いることで、この類似度バイアスを直接的に考慮する。本手法は構成が単純であり、異常行動に関する強いインダクティブバイアスを仮定する必要がなく、高コストな再学習プロセスも不要である。また、標準的な画像データセットにおいて、正常データの入手が極めて限られた状況下でも、ベースライン手法を大きく上回る性能を達成している。