6ヶ月前

マルチモーダル

セマンティックセグメンテーション

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Chenyun Wu Zhe Lin Scott Cohen Trung Bui Subhransu Maji

概要

自然言語のフレーズを提示することで画像領域をセグメンテーションする問題を検討し、77,262枚の画像および345,486組のフレーズ－領域ペアを含む新規データセット上でその問題を分析する。本データセットはVisual Genomeデータセットを基盤として構築され、既存のアノテーションを活用して、対応する領域が手動でアノテートされた、高い難易度を持つ参照フレーズのセットを生成している。本データセット内のフレーズは複数の領域に対応し、物体およびストッフ（stuff）カテゴリの多様な種類に加え、色、形状、部位、および画像内における他のエンティティとの関係性といった属性を記述している。実験の結果、本データセットに含まれる概念のスケールおよび多様性が、既存の最先端技術に大きな課題を提示することが明らかになった。本研究では、これらの概念の長尾分布（long-tail nature）を体系的に扱い、カテゴリ、属性、関係性の情報を組み合わせるモジュール式アプローチを提案する。このアプローチは、既存の手法を上回る性能を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

セマンティックセグメンテーション

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Chenyun Wu Zhe Lin Scott Cohen Trung Bui Subhransu Maji

概要

自然言語のフレーズを提示することで画像領域をセグメンテーションする問題を検討し、77,262枚の画像および345,486組のフレーズ－領域ペアを含む新規データセット上でその問題を分析する。本データセットはVisual Genomeデータセットを基盤として構築され、既存のアノテーションを活用して、対応する領域が手動でアノテートされた、高い難易度を持つ参照フレーズのセットを生成している。本データセット内のフレーズは複数の領域に対応し、物体およびストッフ（stuff）カテゴリの多様な種類に加え、色、形状、部位、および画像内における他のエンティティとの関係性といった属性を記述している。実験の結果、本データセットに含まれる概念のスケールおよび多様性が、既存の最先端技術に大きな課題を提示することが明らかになった。本研究では、これらの概念の長尾分布（long-tail nature）を体系的に扱い、カテゴリ、属性、関係性の情報を組み合わせるモジュール式アプローチを提案する。このアプローチは、既存の手法を上回る性能を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

PhraseCut：ワイルドな環境における言語ベースの画像セグメンテーション | 記事 | HyperAI超神経