16日前

CLIP-EBC:拡張ブロック分類によるCLIPの正確な数え上げ能力

Yiming Ma, Victor Sanchez, Tanaya Guha
CLIP-EBC:拡張ブロック分類によるCLIPの正確な数え上げ能力
要約

我々は、正確な群衆密度推定を実現するための、初めての完全にCLIPに基づくモデルであるCLIP-EBCを提案する。CLIPモデルは、ゼロショット画像分類を含む認識タスクにおいて顕著な成果を上げており、その潜在的な計数能力は、計数という回帰問題を認識タスクに変換するという本質的な課題により、これまでほとんど検討されてこなかった。本研究では、画像からの群衆規模推定というタスクに焦点を当て、CLIPの計数能力の調査と強化を進める。既存の分類ベースの群衆計数フレームワークには、計数値を連続的な実数区間(bin)に量子化するという重大な制限があり、また分類誤差のみに注目するという点が問題となっている。これらの手法は、区間境界付近でラベルの曖昧性を生じさせ、計数値の予測精度を低下させる。そのため、これらのフレームワークに直接CLIPを適用すると、最適な性能が得られない可能性がある。この課題に対処するため、我々はまず、拡張ブロッキング分類(Enhanced Blockwise Classification: EBC)フレームワークを提案する。従来の手法とは異なり、EBCは整数値の区間(bin)を用いることで、区間境界付近の曖昧性を効果的に低減する。さらに、密度マップに基づく回帰損失を導入し、計数値の予測精度を向上させる。このバックボーンに依存しないEBCフレームワークの枠組み内で、CLIPの認識能力を最大限に活用するため、CLIP-EBCを導入する。広範な実験により、EBCの有効性およびCLIP-EBCの競争力ある性能が確認された。具体的には、UCF-QNRFデータセットにおいて、EBCフレームワークは既存の分類ベース手法を最大44.5%向上させ、NWPU-Crowdテストセットでは、MAEが58.2、RMSEが268.5という最先端の性能を達成し、従来の最良手法であるSTEERERと比較して、それぞれ8.6%、13.3%の改善を実現した。コードおよびモデル重みは、https://github.com/Yiming-M/CLIP-EBC にて公開されている。

CLIP-EBC:拡張ブロック分類によるCLIPの正確な数え上げ能力 | 最新論文 | HyperAI超神経