2 个月前
SocialGPT:通过贪婪段优化提示LLM进行社会关系推理
Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister

摘要
社会关系推理旨在从图像中识别出诸如朋友、配偶和同事等关系类别。尽管当前的方法采用了使用标记图像数据端到端训练专用网络的范式,但在泛化能力和可解释性方面存在局限性。为了解决这些问题,我们首先提出了一种简单而精心设计的框架,命名为 {ame},该框架在一个模块化的体系结构中结合了视觉基础模型(VFMs)的感知能力和大型语言模型(LLMs)的推理能力,为社会关系识别提供了强大的基线。具体而言,我们指导 VFMs 将图像内容转换为文本形式的社会故事,然后利用 LLMs 进行基于文本的推理。{ame} 引入了系统性的设计原则,分别适应 VFMs 和 LLMs 并弥合它们之间的差距。在无需额外模型训练的情况下,该方法在两个数据库上取得了具有竞争力的零样本结果,并且由于 LLMs 可以生成基于语言的解释,因此提供了可解释的答案。在推理阶段为 LLMs 手动设计提示的过程繁琐且耗时,因此需要一种自动化的提示优化方法。由于我们将一个视觉分类任务本质上转化为 LLMs 的生成任务,自动化提示优化面临一个独特的长提示优化问题。为了应对这一问题,我们进一步提出了贪婪段落提示优化(Greedy Segment Prompt Optimization, GSPO),该方法通过利用段落级别的梯度信息进行贪婪搜索来优化提示。实验结果显示,GSPO 显著提高了性能,并且我们的方法还适用于不同风格的图像。代码已发布在 https://github.com/Mengzibin/SocialGPT。