HyperAI超神经
4 days ago

视觉-语言-动作模型综述:从动作分词的角度出发

Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang
视觉-语言-动作模型综述:从动作分词的角度出发
摘要

视觉和语言基础模型在多模态理解、推理和生成方面的显著进展激发了越来越多的努力,旨在将这种智能扩展到物理世界,推动了视觉-语言-行动(VLA)模型的蓬勃发展。尽管当前的方法看似多样,我们观察到现有的VLA模型可以统一在一个单一框架下:视觉和语言输入通过一系列VLA模块进行处理,生成一连串的动作标记,这些动作标记逐步编码更加具体和可执行的信息,最终产生可执行的动作。我们进一步确定,区分VLA模型的主要设计选择在于如何制定动作标记,这些标记可以归类为语言描述、代码、可用性(affordance)、轨迹、目标状态、潜在表示(latent representation)、原始动作和推理。然而,目前对于动作标记的理解仍然不够全面,这严重阻碍了有效的VLA开发,并模糊了未来的发展方向。因此,本综述旨在通过动作标记化的视角对现有的VLA研究进行分类和解读,提炼每种标记类型的优势和局限,并识别改进的领域。通过这一系统的回顾和分析,我们提供了对VLA模型更广泛演进的综合展望,突出了尚未充分探索但前景光明的方向,并为未来的研究所贡献指导,希望将该领域推向更加通用的智能。