7ヶ月前

オブジェクト検出

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

概要

物体検出、シーングラフ生成、および領域キャプショニングは、異なる意味レベルでの3つのシーン理解タスクであり、これらは相互に関連しています：画像内で検出された物体とそれらの対の関係を予測してシーングラフが生成され、領域キャプショニングでは物体、その属性、関係、および他の文脈情報の言語的説明が与えられます。本研究では、これらの意味レベル間の相互接続を活用するために、新しいニューラルネットワークモデルであるマルチレベルシーン記述ネットワーク（Multi-level Scene Description Network, 以下MSDNと表記）を提案し、3つの視覚タスクをエンドツーエンドで統合的に解決します。まず、物体、フレーズ、およびキャプション領域が空間的および意味的な接続に基づいて動的グラフによって整列されます。次に、特徴量精製構造を使用して、グラフを通じて3つの意味レベルのタスク間でメッセージを伝達します。学習済みモデルを3つのタスクでベンチマーク評価を行い、提案手法による3つのタスク間での共同学習が既存モデルに対して相互に改善することを示しました。特にシーングラフ生成タスクにおいては、提案手法が最先端の手法よりも3%以上のマージンで優れた性能を発揮しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

オブジェクト検出

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

概要

物体検出、シーングラフ生成、および領域キャプショニングは、異なる意味レベルでの3つのシーン理解タスクであり、これらは相互に関連しています：画像内で検出された物体とそれらの対の関係を予測してシーングラフが生成され、領域キャプショニングでは物体、その属性、関係、および他の文脈情報の言語的説明が与えられます。本研究では、これらの意味レベル間の相互接続を活用するために、新しいニューラルネットワークモデルであるマルチレベルシーン記述ネットワーク（Multi-level Scene Description Network, 以下MSDNと表記）を提案し、3つの視覚タスクをエンドツーエンドで統合的に解決します。まず、物体、フレーズ、およびキャプション領域が空間的および意味的な接続に基づいて動的グラフによって整列されます。次に、特徴量精製構造を使用して、グラフを通じて3つの意味レベルのタスク間でメッセージを伝達します。学習済みモデルを3つのタスクでベンチマーク評価を行い、提案手法による3つのタスク間での共同学習が既存モデルに対して相互に改善することを示しました。特にシーングラフ生成タスクにおいては、提案手法が最先端の手法よりも3%以上のマージンで優れた性能を発揮しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

オブジェクト、フレーズ、および領域キャプションからのシーングラフ生成 | 記事 | HyperAI超神経