9日前

ViperGPT:リーダーリングを実行するためのPython実行による視覚的推論

Dídac Surís, Sachit Menon, Carl Vondrick
ViperGPT:リーダーリングを実行するためのPython実行による視覚的推論
要約

視覚的質問への対応は、視覚処理と推論の両方を必要とする複雑なタスクである。このタスクに対する主流であるエンドツーエンドモデルは、これら2つのプロセスを明示的に区別しないため、解釈可能性と汎化性能に制限がある。モジュール型プログラムを学習するアプローチは有望な代替手段であるが、プログラムとモジュールを同時に学習する難しさから、実現が困難であることがこれまでの課題であった。本研究では、コード生成モデルを活用して、視覚・言語モデルをサブルーチンとして組み合わせ、任意の質問に対して結果を生成するフレームワーク「ViperGPT」を提案する。ViperGPTは、利用可能なモジュールにアクセスするためのAPIを提供し、後で実行可能なPythonコードを生成することで、これらのモジュールを構成する。このシンプルなアプローチは、追加の訓練を必要とせず、さまざまな複雑な視覚タスクにおいて、最先端の性能を達成している。