17日前

WinCLIP:ゼロショット/フェイショット異常分類およびセグメンテーション

Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing Zhang, Avinash Ravichandran, Onkar Dabeer
WinCLIP:ゼロショット/フェイショット異常分類およびセグメンテーション
要約

視覚的異常分類およびセグメンテーションは、産業用品質検査の自動化において不可欠な技術である。従来の研究では、各品質検査タスクに特化したカスタムモデルの学習に注力しており、これにはタスク固有の画像およびラベル付けが必要であった。本論文では、このようなアプローチから脱却し、ゼロショットおよび少数正規サンプル(few-normal-shot)における異常分類およびセグメンテーションに焦点を当てる。近年、視覚言語モデルであるCLIPは、完全教師あり学習と比較しても競争力のあるゼロショット/少数ショット性能を示す画期的な汎用性を備えている。しかし、CLIPは異常分類およびセグメンテーションタスクにおいては依然として限界がある。そこで本研究では、(1)状態語(state words)とプロンプトテンプレートの構成的アンサンブル、および(2)テキストに整合したウィンドウ/パッチ/画像レベルの特徴の効率的な抽出と集約を実現する、ウィンドウベースCLIP(WinCLIP)を提案する。さらに、正規画像から得られる補完的情報を活用する、少数正規サンプル対応拡張版WinCLIP+も提案する。MVTec-AD(およびVisA)における実験では、追加の微調整なしにWinCLIPはゼロショット異常分類およびセグメンテーションで91.8%/85.1%(78.1%/79.6%)のAUROCを達成し、WinCLIP+は1正規サンプルショットにおいて93.1%/95.2%(83.8%/96.4%)のAUROCを記録。いずれも従来の最先端技術を大きく上回る成果を達成した。

WinCLIP:ゼロショット/フェイショット異常分類およびセグメンテーション | 最新論文 | HyperAI超神経