SocialGPT: Greedy セグメント最適化を用いた社会関係推論のための LLM のプロンプトinge 注:「プロンプティング」は一般的に「プロンプトの使用」や「プロンプトによる誘導」と訳されることが多いですが、ここでは「プロンプトinge」と表記しています。もし「プロンプティング」をより自然な日本語で表現したい場合は、「プロンプトによる誘導」または「プロンプトの使用」をお勧めします。

社会関係推論は、画像から友人、配偶者、同僚などの関係カテゴリーを識別することを目指しています。現在の手法では、ラベル付き画像データを使用して専用ネットワークをエンドツーエンドで訓練するパラダイムが採用されていますが、汎化性能と解釈可能性に制限があります。これらの課題に対処するために、まず Vision Foundation Models (VFMs) の知覚能力と Large Language Models (LLMs) の推論能力を組み合わせた単純ながら精巧なフレームワークである {ame} を提案します。このフレームワークはモジュール式であり、社会関係認識の強力なベースラインを提供します。具体的には、VFMs に画像コンテンツをテキストの社会的な物語に変換させる指示を与え、その後 LLMs を利用してテキストに基づいた推論を行います。{ame} は VFMs と LLMs を個別に適応させ、その間のギャップを埋めるための体系的な設計原則を導入しています。追加のモデル訓練なしで、2つのデータベースにおいて競争力のあるゼロショット結果を達成し、解釈可能な回答も提供します。これは LLMs が決定の言語的な説明を生成できるためです。しかし、推論段階での LLMs の手動プロンプト設計プロセスは煩雑であり、自動プロンプト最適化方法が望まれています。我々は基本的に視覚分類タスクを LLMs の生成タスクに変換しているため、自動プロンプト最適化には一意な長プロンプト最適化問題が発生します。この問題に対処するために、さらに Greedy Segment Prompt Optimization (GSPO) を提案します。GSPO はセグメントレベルで勾配情報を活用して貪欲探索を行う手法です。実験結果によると、GSPO は性能を大幅に向上させることを示しており、当手法は異なる画像スタイルにも汎化することが確認されています。コードは https://github.com/Mengzibin/SocialGPT で公開されています。