6ヶ月前

視覚質問応答

コード生成

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Dídac Surís Sachit Menon Carl Vondrick

概要

視覚的質問への対応は、視覚処理と推論の両方を必要とする複雑なタスクである。このタスクに対する主流であるエンドツーエンドモデルは、これら2つのプロセスを明示的に区別しないため、解釈可能性と汎化性能に制限がある。モジュール型プログラムを学習するアプローチは有望な代替手段であるが、プログラムとモジュールを同時に学習する難しさから、実現が困難であることがこれまでの課題であった。本研究では、コード生成モデルを活用して、視覚・言語モデルをサブルーチンとして組み合わせ、任意の質問に対して結果を生成するフレームワーク「ViperGPT」を提案する。ViperGPTは、利用可能なモジュールにアクセスするためのAPIを提供し、後で実行可能なPythonコードを生成することで、これらのモジュールを構成する。このシンプルなアプローチは、追加の訓練を必要とせず、さまざまな複雑な視覚タスクにおいて、最先端の性能を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

コード生成

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Dídac Surís Sachit Menon Carl Vondrick

概要

視覚的質問への対応は、視覚処理と推論の両方を必要とする複雑なタスクである。このタスクに対する主流であるエンドツーエンドモデルは、これら2つのプロセスを明示的に区別しないため、解釈可能性と汎化性能に制限がある。モジュール型プログラムを学習するアプローチは有望な代替手段であるが、プログラムとモジュールを同時に学習する難しさから、実現が困難であることがこれまでの課題であった。本研究では、コード生成モデルを活用して、視覚・言語モデルをサブルーチンとして組み合わせ、任意の質問に対して結果を生成するフレームワーク「ViperGPT」を提案する。ViperGPTは、利用可能なモジュールにアクセスするためのAPIを提供し、後で実行可能なPythonコードを生成することで、これらのモジュールを構成する。このシンプルなアプローチは、追加の訓練を必要とせず、さまざまな複雑な視覚タスクにおいて、最先端の性能を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています