7ヶ月前

視覚質問応答

コンピュータビジョン

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Justin Johnson Bharath Hariharan Laurens van der Maaten Judy Hoffman Li Fei-Fei C. Lawrence Zitnick Ross Girshick

概要

既存の視覚推論手法は、ブラックボックス構造を用いて入力を出力に直接マッピングしようと試み、基礎となる推論プロセスを明示的にモデル化することなく行われています。その結果、これらのブラックボックスモデルはしばしばデータのバイアスを利用することを学習し、視覚推論を行うことを学習するよりもその傾向が強いです。モジュールネットワークに着想を得て、本論文では視覚推論のためのモデルを提案します。このモデルは、実行すべき推論プロセスの明示的な表現を作成するプログラムジェネレータと、生成されたプログラムを実行して答えを導き出す実行エンジンから構成されています。プログラムジェネレータと実行エンジンの両方ともニューラルネットワークによって実装され、バックプロパゲーションとREINFORCE（強化学習アルゴリズム）の組み合わせを使用して訓練されます。CLEVRベンチマークを用いた視覚推論の評価において、我々のモデルは強力な基準モデルに対して著しく優れた性能を示し、様々な設定下でより良い汎化能力を持つことが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

コンピュータビジョン

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Justin Johnson Bharath Hariharan Laurens van der Maaten Judy Hoffman Li Fei-Fei C. Lawrence Zitnick Ross Girshick

概要

既存の視覚推論手法は、ブラックボックス構造を用いて入力を出力に直接マッピングしようと試み、基礎となる推論プロセスを明示的にモデル化することなく行われています。その結果、これらのブラックボックスモデルはしばしばデータのバイアスを利用することを学習し、視覚推論を行うことを学習するよりもその傾向が強いです。モジュールネットワークに着想を得て、本論文では視覚推論のためのモデルを提案します。このモデルは、実行すべき推論プロセスの明示的な表現を作成するプログラムジェネレータと、生成されたプログラムを実行して答えを導き出す実行エンジンから構成されています。プログラムジェネレータと実行エンジンの両方ともニューラルネットワークによって実装され、バックプロパゲーションとREINFORCE（強化学習アルゴリズム）の組み合わせを使用して訓練されます。CLEVRベンチマークを用いた視覚推論の評価において、我々のモデルは強力な基準モデルに対して著しく優れた性能を示し、様々な設定下でより良い汎化能力を持つことが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています