視覚プログラム蒸留:ツールとプログラマティック推論を視覚言語モデルに蒸留する

複雑な視覚的な課題、例えば「右側の楽器は誰が発明したか?」を解決するには、空間理解、楽器認識、そして事前知識の取得というスキルの組み合わせが必要です。最近の研究では、大規模言語モデル(LLM)を使用してこれらの課題を実行可能なプログラムに分解し、専門的な視覚モデルを呼び出すことで有望な結果が示されています。しかし、生成されたプログラムは誤りが生じやすい:必要な手順を省略したり、不要な手順を含んだり、専門的なモデルが出力した不正確な情報を補正できないことがあります。さらに、複数のモデルを読み込む必要があるため、高い遅延と計算コストが発生します。私たちはVisual Program Distillation (VPD)と呼ばれる指示微調整フレームワークを提案します。このフレームワークは、単一の順方向パスで複雑な視覚的な課題を解決できるビジョン言語モデル(VLM)を生成します。VPDはLLMを使用して複数の候補プログラムをサンプリングし、それらを実行・検証することで正しいプログラムを見出します。その後、各正しいプログラムを推論ステップの言語的説明に翻訳し、これらからVLMに蒸留させます。広範囲にわたる実験により、VPDはVLMのカウント能力、空間関係理解能力、および合成的な推論能力を向上させることが確認されました。私たちがVPDで訓練したPaLI-Xはすべての先行VLMを超えており、「MMBench」「OK-VQA」「A-OKVQA」「TallyQA」「POPE」および「Hateful Memes」などの複雑な視覚課題において最先端の性能を達成しています。人間アノテーターによる評価でも、VPDがモデル応答の事実性と一貫性を改善することが確認されています。最後に、データ量が限られている実世界アプリケーションへの適応についても実験を行い、VPDがコンテンツモデレーションにも有用であることが示されました。