잠재적 변수를 위한 플라나모르: 대규모 언어 및 비전 모델을 위한 접근

시각 지시 조정(visual instruction tuning)의 성공은 대규모 언어 및 비전 모델(Large Language and Vision Models, LLVMs)의 발전을 가속화시켰다. 지시 조정된 대규모 언어 모델(Large Language Models, LLMs)의 스케일링 법칙에 따라, LLVMs는 더욱 커져 26B, 34B, 심지어 80B 파라미터에 이르렀다. 이러한 모델 크기의 증가로 인해 성능 향상이 크게 이루어졌지만, 학습과 추론 모두에 있어 상당한 하드웨어 자원이 요구된다. 따라서 더 큰 모델의 성능을 달성하면서도 크기는 작게 유지하는 효율적인 LLVM의 필요성이 자연스럽게 제기된다. 이러한 요구를 충족하기 위해, 본 연구에서는 0.5B, 1.8B, 3.8B, 7B 파라미터 규모를 갖춘 새로운 효율적인 LLVM 계열인 Phantom을 제안한다. Phantom은 제한된 구조 내에서도 학습 능력을 크게 향상시킨다. 다중 헤드 자기주의(Multi-Head Self-Attention, MHSA) 과정에서 잠재(hidden) 상태 차원을 일시적으로 증가시킴으로써, 물리적 모델 크기를 크게 늘리지 않으면서도 더 많은 비전-언어 지식을 잠재 공간에서 탐색하고 이해할 수 있도록 한다. Phantom의 장점을 극대화하기 위해, 자동 회귀적 지도형 미세조정(Autoregressive Supervised Fine-Tuning, SFT)과 직접적 선호 최적화(Direct Preference Optimization, DPO) 개념을 결합한 Phantom 최적화(Phantom Optimization, PO)를 도입하였다. 이는 올바른 답변을 효과적으로 따르면서도 잘못되거나 모호한 답변을 제거하는 데 성공한다. 실험 결과, Phantom은 수많은 더 큰 오픈소스 및 클로즈드소스 LLVM 모델을 능가하며, 효율적인 LLVM 분야에서 선도적인 솔루션으로 자리매김하고 있다.