7ヶ月前

コンピュータビジョン

マルチモーダル

マルチモーダル

コンピュータビジョン

Guojun Yin Lu Sheng Bin Liu Nenghai Yu Xiaogang Wang Jing Shao

概要

密集キャプショニングは、セマンティック領域を同時に局所化し、これらの関心領域（ROI）を自然言語で短いフレーズや文章で説明することを目指しています。これまでの研究では著しい進展が見られましたが、しばしばアパチャー問題に脆弱であり、入力画像内の周辺コンテキストとの文脈的一貫性が欠けていることが指摘されています。本研究では、近隣コンテンツから対象ROIへ多尺度メッセージ伝播に基づく文脈推論を調査します。この目的のために、1) 文脈視覚マイニングモジュールと 2) 多レベル属性基盤説明生成モジュールから構成される新しいエンドツーエンドの文脈および属性基盤密集キャプショニングフレームワークを設計しました。キャプションがしばしば言語的属性（誰、何、どこなど）と共起することが知られているため、階層的な言語的属性からの補助的な監督を組み込み、学習されたキャプションの独自性を強化しています。Visual Genomeデータセットにおける広範な実験とアブレーションスタディにより、提案モデルが最先端手法に比して優れていることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

コンピュータビジョン

マルチモーダル

マルチモーダル

コンピュータビジョン

Guojun Yin Lu Sheng Bin Liu Nenghai Yu Xiaogang Wang Jing Shao

概要

密集キャプショニングは、セマンティック領域を同時に局所化し、これらの関心領域（ROI）を自然言語で短いフレーズや文章で説明することを目指しています。これまでの研究では著しい進展が見られましたが、しばしばアパチャー問題に脆弱であり、入力画像内の周辺コンテキストとの文脈的一貫性が欠けていることが指摘されています。本研究では、近隣コンテンツから対象ROIへ多尺度メッセージ伝播に基づく文脈推論を調査します。この目的のために、1) 文脈視覚マイニングモジュールと 2) 多レベル属性基盤説明生成モジュールから構成される新しいエンドツーエンドの文脈および属性基盤密集キャプショニングフレームワークを設計しました。キャプションがしばしば言語的属性（誰、何、どこなど）と共起することが知られているため、階層的な言語的属性からの補助的な監督を組み込み、学習されたキャプションの独自性を強化しています。Visual Genomeデータセットにおける広範な実験とアブレーションスタディにより、提案モデルが最先端手法に比して優れていることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています