6ヶ月前

セマンティックセグメンテーション

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Seokju Cho Heeseong Shin Sunghwan Hong Anurag Arnab Paul Hongsuck Seo Seungryong Kim

概要

オープンボリュームのセマンティックセグメンテーションは、画像内の各ピクセルを幅広いテキスト記述に基づいてラベル付けするという課題を提示する。本研究では、特にCLIPを代表とする視覚言語基盤モデルを、複雑なセマンティックセグメンテーションタスクに適応させるための新しいコストベースのアプローチを提案する。画像とテキストの埋め込み間のコサイン類似度スコア、すなわちコストボリュームを統合することで、我々の手法はエンコーダーの微調整を通じて、既視クラスおよび未視認クラスの両方のセグメンテーションにCLIPを効果的に適応させ、従来の手法が未視認クラスに対処する際の課題を克服する。さらに、画像埋め込みとテキスト埋め込みの間で構築されるマルチモーダル性を考慮しつつ、コストボリュームを効果的に集約する手法を検討する。また、CLIPの効率的な微調整を実現するためのさまざまな手法についても検証している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

セマンティックセグメンテーション

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Seokju Cho Heeseong Shin Sunghwan Hong Anurag Arnab Paul Hongsuck Seo Seungryong Kim

概要

オープンボリュームのセマンティックセグメンテーションは、画像内の各ピクセルを幅広いテキスト記述に基づいてラベル付けするという課題を提示する。本研究では、特にCLIPを代表とする視覚言語基盤モデルを、複雑なセマンティックセグメンテーションタスクに適応させるための新しいコストベースのアプローチを提案する。画像とテキストの埋め込み間のコサイン類似度スコア、すなわちコストボリュームを統合することで、我々の手法はエンコーダーの微調整を通じて、既視クラスおよび未視認クラスの両方のセグメンテーションにCLIPを効果的に適応させ、従来の手法が未視認クラスに対処する際の課題を克服する。さらに、画像埋め込みとテキスト埋め込みの間で構築されるマルチモーダル性を考慮しつつ、コストボリュームを効果的に集約する手法を検討する。また、CLIPの効率的な微調整を実現するためのさまざまな手法についても検証している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています