8ヶ月前

マルチモーダル

セマンティックセグメンテーション

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Hai Nguyen-Truong E-Ro Nguyen* Tuan-Anh Vu Minh-Triet Tran Binh-Son Hua Sai-Kit Yeung

概要

参照画像セグメンテーションは、自然言語の説明に基づいてピクセル単位のセグメンテーションマスクを生成するという課題であり、提供される文章の複雑さが増すにつれてその難易度も高まります。既存の手法では、主に視覚的な特徴を用いてセグメンテーションマスクを生成し、テキスト特徴を補助的な要素として扱う傾向がありました。しかし、このテキスト理解の活用不足により、モデルが与えられた表現を完全に理解する能力が制限されていました。本研究では、人間の認知プロセスに着想を得たVision-Aware Text Features（視覚認識型テキスト特徴）を用いて対象物と文脈の理解に特に重点を置いた新しいフレームワークを提案します。まず、CLIP Priorモジュールを導入して興味のある主要な対象物を局所化し、オブジェクトヒートマップをクエリ初期化プロセスに埋め込む方法を紹介します。次に、コンテクストマルチモーダルデコーダと意味的一貫性制約という2つのコンポーネントの組み合わせを提案し、画像から得られる文脈的理解と言語的ヒントの連携および一貫性解釈をさらに強化します。当手法はRefCOCO, RefCOCO+, G-Refという3つのベンチマークデータセットで著しい性能向上を達成しました。プロジェクトページ: \url{https://vatex.hkustvgd.com/}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

セマンティックセグメンテーション

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Hai Nguyen-Truong E-Ro Nguyen* Tuan-Anh Vu Minh-Triet Tran Binh-Son Hua Sai-Kit Yeung

概要

参照画像セグメンテーションは、自然言語の説明に基づいてピクセル単位のセグメンテーションマスクを生成するという課題であり、提供される文章の複雑さが増すにつれてその難易度も高まります。既存の手法では、主に視覚的な特徴を用いてセグメンテーションマスクを生成し、テキスト特徴を補助的な要素として扱う傾向がありました。しかし、このテキスト理解の活用不足により、モデルが与えられた表現を完全に理解する能力が制限されていました。本研究では、人間の認知プロセスに着想を得たVision-Aware Text Features（視覚認識型テキスト特徴）を用いて対象物と文脈の理解に特に重点を置いた新しいフレームワークを提案します。まず、CLIP Priorモジュールを導入して興味のある主要な対象物を局所化し、オブジェクトヒートマップをクエリ初期化プロセスに埋め込む方法を紹介します。次に、コンテクストマルチモーダルデコーダと意味的一貫性制約という2つのコンポーネントの組み合わせを提案し、画像から得られる文脈的理解と言語的ヒントの連携および一貫性解釈をさらに強化します。当手法はRefCOCO, RefCOCO+, G-Refという3つのベンチマークデータセットで著しい性能向上を達成しました。プロジェクトページ: \url{https://vatex.hkustvgd.com/}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

視覚認識に基づく参照画像セグメンテーションにおけるテキスト特徴：オブジェクト理解からコンテクスト理解へ | 記事 | HyperAI超神経