2달 전

CuMo: 다중 모드 LLM의 확장에 대한 공업사이클링 전문가 혼합 방법

Jiachen Li; Xinyao Wang; Sijie Zhu; Chia-Wen Kuo; Lu Xu; Fan Chen; Jitesh Jain; Humphrey Shi; Longyin Wen
CuMo: 다중 모드 LLM의 확장에 대한 공업사이클링 전문가 혼합 방법
초록

최근 다중모달 대형 언어 모델(LLM)의 발전은 주로 텍스트-이미지 쌍 데이터를 증가시키고 LLM의 성능을 개선하여 다중모달 작업에서의 성능을 높이는 데 초점을 맞추고 있습니다. 그러나 이러한 확장 접근법은 계산적으로 비용이 많이 들며, 시각적 측면에서 모델 능력을 개선하는 중요성을 간과하고 있습니다. Mixture-of-Experts (MoE)가 훈련 중 모델의 확장성을 개선하면서 추론 비용은 작은 모델과 유사하게 유지하는 성공적인 응용 사례에 영감을 받아, 우리는 CuMo를 제안합니다. CuMo는 시각 인코더와 MLP 커넥터에 Co-upcycled Top-K 희소 게이트 Mixture-of-experts 블록을 통합하여, 추론 시 활성화되는 매개변수를 최소한으로 추가하면서 다중모달 LLM의 성능을 향상시킵니다. CuMo는 먼저 MLP 블록을事前訓練한 후, 시각 지시 조정 단계에서 사전 훈련된 MLP 블록에서 각 전문가를 초기화합니다. 보조 손실 함수는 전문가들의 균형 잡힌 로딩을 보장하기 위해 사용됩니다. CuMo는 각 모델 크기 그룹 내에서 모델들을 사용하여 다양한 VQA 및 시각적 지시 준수 벤치마크에서 최신 다중모달 LLM보다 우수한 성능을 보입니다. 이 과정은 오픈 소스 데이터셋만을 사용하여 독점적으로 훈련되었습니다. CuMo의 코드와 모델 가중치는 https://github.com/SHI-Labs/CuMo 에서 오픈 소스로 제공됩니다.注:在翻译过程中,我发现了一个中文词汇“事前训练”(预训练)。这可能是误输入。正确的韩文翻译应该是“사전 훈련”。以下是修正后的版本:최근 다중모달 대형 언어 모델(LLM)의 발전은 주로 텍스트-이미지 쌍 데이터를 증가시키고 LLM의 성능을 개선하여 다중모달 작업에서의 성능을 높이는 데 초점을 맞추고 있습니다. 그러나 이러한 확장 접근법은 계산적으로 비용이 많이 들며, 시각적 측면에서 모델 능력을 개선하는 중요성을 간과하고 있습니다. Mixture-of-Experts (MoE)가 훈련 중 모델의 확장성을 개선하면서 추론 비용은 작은 모델과 유사하게 유지하는 성공적인 응용 사례에 영감을 받아, 우리는 CuMo를 제안합니다. CuMo는 시각 인코더와 MLP 커넥터에 Co-upcycled Top-K 희소 게이트 Mixture-of-experts 블록을 통합하여, 추론 시 활성화되는 매개변수를 최소한으로 추가하면서 다중모달 LLM의 성능을 향상시킵니다. CuMo는 먼저 MLP 블록을 사전 훈련한 후, 시각 지시 조정 단계에서 사전 훈련된 MLP 블록에서 각 전문가를 초기화합니다. 보조 손실 함수는 전문가들의 균형 잡힌 로딩을 보장하기 위해 사용됩니다. CuMo는 각 모델 크기 그룹 내에서 모델들을 사용하여 다양한 VQA 및 시각적 지시 준수 벤치마크에서 최신 다중모달 LLM보다 우수한 성능을 보입니다. 이 과정은 오픈 소스 데이터셋만을 사용하여 독점적으로 훈련되었습니다. CuMo의 코드와 모델 가중치는 https://github.com/SHI-Labs/CuMo 에서 오픈 소스로 제공됩니다.

CuMo: 다중 모드 LLM의 확장에 대한 공업사이클링 전문가 혼합 방법 | 최신 연구 논문 | HyperAI초신경