2달 전

특화를 넘어서: MLLM의 연령 및 성별 추정 능력 평가

Kuprashevich, Maksim ; Alekseenko, Grigorii ; Tolstykh, Irina
특화를 넘어서: MLLM의 연령 및 성별 추정 능력 평가
초록

다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 최근 큰 인기를 얻고 있습니다. ChatGPT-4V와 Gemini 같은 강력한 상용 모델뿐만 아니라 LLaVA와 같은 오픈 소스 모델도 사실상 일반 목적 모델로 사용되며, 다양한 작업을 해결하는 데 활용됩니다. 이 중에는 컴퓨터 비전 분야의 작업도 포함됩니다. 이러한 신경망은 강력한 일반 지식과 추론 능력을 갖추고 있어, 특정 훈련을 받지 않은 작업에서도 성능을 발휘할 수 있음을 입증하였습니다.우리는 현재 가장 강력한 MLLM인 ShareGPT4V, ChatGPT, LLaVA-Next를 우리 최신 전문 모델 MiVOLO와 함께 연령 및 성별 추정이라는 특화된 작업에서 비교하였습니다. 또한 본 논문에서는 MiVOLO를 업데이트하고 새로운 평가 지표와 세부 사항을 제공합니다. 이 비교를 통해 참여한 모델들의 장점과 단점에 대한 몇 가지 흥미로운 결과와 통찰을 얻었습니다. 더불어, ShareGPT4V 모델을 이 특정 작업에 맞게 미세 조정(fine-tuning)하는 여러 방법을 시도하여 해당 도전 과제에서 최신 수준의 성능을 달성하려고 노력하였습니다.그러나 이러한 모델은 MiVOLO와 같은 전문 모델에 비해 매우 비싸기 때문에 실무에서는 실용적이지 않을 것입니다. 그럼에도 불구하고 데이터 주석(annotation) 등의 일부 작업에서는 매우 유용할 수 있습니다.