16日前
CAT-Seg:オープンボリュームセマンティックセグメンテーションのためのコスト集約
Seokju Cho, Heeseong Shin, Sunghwan Hong, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim

要約
オープンボリュームのセマンティックセグメンテーションは、画像内の各ピクセルを幅広いテキスト記述に基づいてラベル付けするという課題を提示する。本研究では、特にCLIPを代表とする視覚言語基盤モデルを、複雑なセマンティックセグメンテーションタスクに適応させるための新しいコストベースのアプローチを提案する。画像とテキストの埋め込み間のコサイン類似度スコア、すなわちコストボリュームを統合することで、我々の手法はエンコーダーの微調整を通じて、既視クラスおよび未視認クラスの両方のセグメンテーションにCLIPを効果的に適応させ、従来の手法が未視認クラスに対処する際の課題を克服する。さらに、画像埋め込みとテキスト埋め込みの間で構築されるマルチモーダル性を考慮しつつ、コストボリュームを効果的に集約する手法を検討する。また、CLIPの効率的な微調整を実現するためのさまざまな手法についても検証している。