2달 전

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model LLaMA-어댑터 V2: 매개변수 효율적인 시각 지시 모델

Peng Gao; Jiaming Han; Renrui Zhang; Ziyi Lin; Shijie Geng; Aojun Zhou; Wei Zhang; Pan Lu; Conghui He; Xiangyu Yue; Hongsheng Li; Yu Qiao
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
LLaMA-어댑터 V2: 매개변수 효율적인 시각 지시 모델
초록

대형 언어 모델(LLMs)을 효율적으로 명령어 수행자로 변환하는 방법은 최근 인기 있는 연구 방향이지만, LLM의 다중 모드 추론 훈련은 여전히 덜 탐구되고 있습니다. 최근 LLaMA-Adapter는 시각적 입력을 LLM으로 처리할 수 있는 잠재력을 보여주었지만, 아직 개방형 시각적 명령어에 대한 일반화 능력이 부족하며 GPT-4에 비해 뒤떨어집니다. 본 논문에서는 매개변수 효율적인 시각적 명령어 모델인 LLaMA-Adapter V2를 제시합니다.특히, 먼저 더 많은 학습 가능한 매개변수(예: 정규화(norm), 편향(bias), 스케일(scale))를 해제하여 전체 LLaMA 모델에서不仅仅是适配器还能分散指令跟随能力。其次,我们提出了一种早期融合策略,仅将视觉标记输入到LLM的早期层中,有助于更好地整合视觉知识。第三,通过优化可学习参数的不同组,引入了图像-文本对和指令跟随数据的联合训练范式。该策略有效缓解了图像-文本对齐和指令跟随两项任务之间的干扰,并且仅使用小规模的图像-文本和指令数据集就能实现强大的多模态推理能力。在推理过程中,我们将额外的专家模型(例如:字幕生成/光学字符识别系统)集成到LLaMA-Adapter中,以进一步增强其图像理解能力而不增加训练成本。与原始的LLaMA-Adapter相比,我们的LLaMA-Adapter V2只需在LLaMA上引入1400万个参数即可执行开放式的多模态指令。新设计的框架还表现出更强的语言-only指令跟随能力和甚至在聊天互动中也更为出色。我们的代码和模型可在https://github.com/ZrrSkywalker/LLaMA-Adapter 获取。修正后的翻译:특히, 먼저 더 많은 학습 가능한 매개변수(예: 정규화(norm), 편향(bias), 스케일(scale))를 해제하여 전체 LLaMA 모델에서 명령어 수행 능력을 분산시킵니다. 두 번째로, 초기 융합 전략을 제안하여 시각 토큰을 오직 초기 LLM 층에만 입력함으로써 시각 지식 통합을 개선합니다. 세 번째로, 학습 가능한 매개변수의 서로 다른 그룹을 최적화하여 이미지-텍스트 쌍과 명령어 수행 데이터의 공동 훈련 패러다임을 도입합니다. 이 전략은 이미지-텍스트 맞춤과 명령어 수행 사이의 간섭을 효과적으로 완화시키고, 작은 규모의 이미지-텍스트 및 명령어 데이터셋으로도 강력한 다중 모드 추론을 달성합니다.추론 과정에서는 추가적인 전문 모델(예: 캡셔닝/OCR 시스템)을 LLaMA-Adapter에 통합하여 이미지 이해 능력을 더욱 강화하면서 훈련 비용을 증가시키지 않습니다. 원래의 LLaMA-Adapter와 비교할 때, 우리의 LLaMA-Adapter V2는 단 14M의 매개변수 추가만으로도 개방형 다중 모드 명령어를 수행할 수 있습니다. 새롭게 설계된 프레임워크는 또한 언어만 사용하는 명령어 수행 능력이 강하고, 챗봇 상호작용에서도 우수한 성능을 보입니다.코드와 모델은 https://github.com/ZrrSkywalker/LLaMA-Adapter 에서 제공됩니다.

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model LLaMA-어댑터 V2: 매개변수 효율적인 시각 지시 모델 | 최신 연구 논문 | HyperAI초신경