HyperAIHyperAI

Command Palette

Search for a command to run...

ViperGPT:リーダーリングを実行するためのPython実行による視覚的推論

Dídac Surís Sachit Menon Carl Vondrick

概要

視覚的質問への対応は、視覚処理と推論の両方を必要とする複雑なタスクである。このタスクに対する主流であるエンドツーエンドモデルは、これら2つのプロセスを明示的に区別しないため、解釈可能性と汎化性能に制限がある。モジュール型プログラムを学習するアプローチは有望な代替手段であるが、プログラムとモジュールを同時に学習する難しさから、実現が困難であることがこれまでの課題であった。本研究では、コード生成モデルを活用して、視覚・言語モデルをサブルーチンとして組み合わせ、任意の質問に対して結果を生成するフレームワーク「ViperGPT」を提案する。ViperGPTは、利用可能なモジュールにアクセスするためのAPIを提供し、後で実行可能なPythonコードを生成することで、これらのモジュールを構成する。このシンプルなアプローチは、追加の訓練を必要とせず、さまざまな複雑な視覚タスクにおいて、最先端の性能を達成している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています