HyperAI超神经

摘要

大型视觉-语言模型（LVLMs）通过在特定数据集上进行视觉指令调优，在视觉问答和推理任务中取得了令人印象深刻的结果。然而，在对齐视觉和语言模态方面仍存在显著的改进空间。现有的方法通常依赖外部模型或数据，导致对齐结果难以控制且不稳定。本文提出了一种自提升框架——SIMA，该框架无需外部依赖即可增强视觉和语言模态的对齐效果。SIMA利用现有的视觉指令调优数据集自动生成响应，并结合了上下文中的自批评机制来构建偏好对用于调优。重要的是，我们的方法通过设计有效的批评提示，使LVLMs能够充当批评者，从而消除了对外部指令数据进行额外微调的需求。我们在自批评过程中引入了三个新颖的视觉指标，以指导判断过程，显著提高了自批评的准确性。通过在14个幻觉和全面基准测试上的广泛实验，我们证明SIMA显著提升了LVLM的性能，并优于先前的方法，实现了更优越的模态对齐效果。

摘要

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

摘要

用 AI 构建 AI

HyperAI Newsletters

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

摘要

用 AI 构建 AI

HyperAI Newsletters

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐

摘要

用 AI 构建 AI

HyperAI Newsletters