7일 전

AnyMAL: 효율적이고 확장 가능한 다중 모달리티 보강 언어 모델

Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
AnyMAL: 효율적이고 확장 가능한 다중 모달리티 보강 언어 모델
초록

다양한 입력 모달리티 신호(즉, 텍스트, 이미지, 동영상, 오디오, IMU 운동 센서)를 기반으로 추론하고 텍스트 응답을 생성하는 통합 모델인 Any-Modality Augmented Language Model(AnyMAL)을 제안한다. AnyMAL은 LLaMA-2(70B)를 포함한 최신 기술 수준의 대규모 언어 모델(LLM)의 강력한 텍스트 기반 추론 능력을 계승하며, 사전 훈련된 어라이너 모듈을 통해 모달리티별 신호를 통합된 텍스트 공간으로 변환한다. 다중 모달 LLM의 능력을 더욱 강화하기 위해, 단순한 질의응답(QA)을 넘어서 다양한 주제와 작업을 포괄하는 수동으로 수집된 다중 모달 지시어셋을 기반으로 모델을 미세조정한다. 인간 평가 및 자동 평가를 포함한 종합적인 실증 분석을 수행하였으며, 다양한 다중 모달 작업에서 최신 기술 수준의 성능을 입증하였다.

AnyMAL: 효율적이고 확장 가능한 다중 모달리티 보강 언어 모델 | 최신 연구 논문 | HyperAI초신경