7ヶ月前

マルチモーダル

セマンティックセグメンテーション

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Ronghang Hu; Marcus Rohrbach; Trevor Darrell

概要

本論文では、自然言語表現に基づいた画像のセグメンテーションという新規問題に取り組んでいます。これは、事前に定義された意味クラスの集合に対する従来の意味セグメンテーションとは異なります。例えば、「右側のベンチに座っている2人の男性」というフレーズは、右側のベンチに座っている2人のみをセグメンテーションし、他のベンチに立っているまたは座っている人物は対象としません。このタスクに適した従来のアプローチは、固定されたカテゴリセットおよび/または矩形領域に限定されていました。自然言語表現からピクセル単位でのセグメンテーションを生成するために、我々は視覚情報と言語情報を統合して処理するためのエンドツーエンドで学習可能な再帰型および畳み込み型ネットワークモデルを提案します。当該モデルにおいては、再帰型LSTMネットワークが参照表現をベクトル表現にエンコードし、完全畳み込み型ネットワークが画像から空間特徴マップを抽出し、対象物体に対する空間応答マップを出力します。ベンチマークデータセットでの実験結果により、我々のモデルが自然言語表現から高品質なセグメンテーション出力を生成できることを示し、ベースライン手法に対して大幅な性能向上を達成していることが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

マルチモーダル

セマンティックセグメンテーション

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Ronghang Hu; Marcus Rohrbach; Trevor Darrell

概要

本論文では、自然言語表現に基づいた画像のセグメンテーションという新規問題に取り組んでいます。これは、事前に定義された意味クラスの集合に対する従来の意味セグメンテーションとは異なります。例えば、「右側のベンチに座っている2人の男性」というフレーズは、右側のベンチに座っている2人のみをセグメンテーションし、他のベンチに立っているまたは座っている人物は対象としません。このタスクに適した従来のアプローチは、固定されたカテゴリセットおよび/または矩形領域に限定されていました。自然言語表現からピクセル単位でのセグメンテーションを生成するために、我々は視覚情報と言語情報を統合して処理するためのエンドツーエンドで学習可能な再帰型および畳み込み型ネットワークモデルを提案します。当該モデルにおいては、再帰型LSTMネットワークが参照表現をベクトル表現にエンコードし、完全畳み込み型ネットワークが画像から空間特徴マップを抽出し、対象物体に対する空間応答マップを出力します。ベンチマークデータセットでの実験結果により、我々のモデルが自然言語表現から高品質なセグメンテーション出力を生成できることを示し、ベースライン手法に対して大幅な性能向上を達成していることが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています