8ヶ月前

視覚質問応答

マルチモーダル

コンピュータビジョン

Roei Herzig Amir Bar Huijuan Xu Gal Chechik Trevor Darrell Amir Globerson

概要

複雑な視覚シーンの現実的な画像を生成することは、生成される画像の構造を制御したい場合に挑戦的となります。これまでのアプローチでは、少数のエンティティを持つシーンはシーングラフを使用して制御可能であることが示されていましたが、グラフの複雑さ（オブジェクトとエッジの数）が増加するとこの方法は困難になります。本研究では、現在の手法における一つの限界がグラフ内の意味的同等性を捉える能力の欠如にあることを示します。私たちはこれらの問題に対処するために、データから正準的なグラフ表現を学習する新しいモデルを提案します。これにより、複雑な視覚シーンに対する画像生成性能が向上します。提案したモデルは、大規模なシーングラフでの経験的な性能向上、入力シーングラフへのノイズに対する堅牢性、および意味的に同等なグラフへの汎化能力を示しています。最後に、Visual Genome, COCO, および CLEVR の3つの異なるベンチマークにおいてモデルの性能向上を示します。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

視覚質問応答

マルチモーダル

コンピュータビジョン

Roei Herzig Amir Bar Huijuan Xu Gal Chechik Trevor Darrell Amir Globerson

概要

複雑な視覚シーンの現実的な画像を生成することは、生成される画像の構造を制御したい場合に挑戦的となります。これまでのアプローチでは、少数のエンティティを持つシーンはシーングラフを使用して制御可能であることが示されていましたが、グラフの複雑さ（オブジェクトとエッジの数）が増加するとこの方法は困難になります。本研究では、現在の手法における一つの限界がグラフ内の意味的同等性を捉える能力の欠如にあることを示します。私たちはこれらの問題に対処するために、データから正準的なグラフ表現を学習する新しいモデルを提案します。これにより、複雑な視覚シーンに対する画像生成性能が向上します。提案したモデルは、大規模なシーングラフでの経験的な性能向上、入力シーングラフへのノイズに対する堅牢性、および意味的に同等なグラフへの汎化能力を示しています。最後に、Visual Genome, COCO, および CLEVR の3つの異なるベンチマークにおいてモデルの性能向上を示します。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています