
要約
私たちは、コスト効率の高いニューロシンボリックエージェントを開発し、画像編集における複雑なマルチターンタスク(例:「画像内のベンチを検出し、それをピンクに再着色する。また、より明瞭な視野を得るために猫を削除し、壁を黄色に再着色する」)に対処します。このエージェントは、大規模言語モデル(LLMs)による高速な高レベルサブタスク計画と、各サブタスクに対する遅いが正確なツール使用および局所的なA*探索を組み合わせて、コスト効率の高いツールパス(AIツールへの一連の呼び出し)を見つけることを目指しています。類似したサブタスクでAのコストを節約するために、私たちはLLMsを通じて以前に成功したツールパスについて帰納的推論を行い、頻繁に使用されるサブルーチンを継続的に抽出・改良し、将来のタスクのために新しいツールとして再利用します。この適応的な高速-低速計画では、まず上位レベルのサブルーチンを探求し、それらが失敗した場合のみ低レベルのA探索が活性化されます。再利用可能なシンボリックサブルーチンは、類似した画像に対して同じタイプのサブタスクを行う際に探査コストを大幅に削減し、「FaSTA」という人間のような高速-低速ツールパスエージェントを実現します。FaSTAでは、まずLLMsによって高速なサブタスク計画とルールに基づくサブルーチン選択が試みられ、これはほとんどのタスクをカバーすることが期待されています。一方で、新規かつ困難なサブタスクには遅いA*探索のみがトリガーされます。最近の画像編集手法と比較することで示されたように、FaSTA*は計算効率において著しく優れていますが、成功率に関しては最先端のベースラインと同等であることが確認されています。