10일 전

사전 훈련된 모델의 앙상블을 반복적 합의를 통해 구성하기

Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Igor Mordatch
사전 훈련된 모델의 앙상블을 반복적 합의를 통해 구성하기
초록

대규모 사전 훈련 모델은 훈련 데이터에 따라 각각 독특하고 보완적인 능력을 보입니다. GPT-3과 같은 언어 모델은 텍스트 기반 추론이 가능하지만 시각 정보를 이해하지 못하며, DALL-E와 같은 비전 모델은 사실적인 사진을 생성할 수 있지만 복잡한 언어 설명을 이해하지 못합니다. 본 연구에서는 다양한 사전 훈련 모델의 앙상블을 구성하기 위한 통합 프레임워크를 제안합니다. 이 프레임워크는 각 모델의 강점을 결합하여 다양한 멀티모달 문제를 제로샷(zero-shot) 방식으로 해결합니다. 우리는 사전 훈련 모델을 '생성기(generators)' 또는 '평가기(scorers)'로 활용하고, 폐쇄 루프 반복적 합의 최적화를 통해 이를 조합합니다. 생성기는 후보를 생성하고, 평가기는 반복적으로 피드백을 제공하여 생성 결과를 개선합니다. 이러한 폐쇄 루프 통신을 통해 모델들은 서로의 오류를 수정할 수 있으며, 모델 미세조정(fine-tuning) 없이도 하류 작업에서 성능을 크게 향상시킬 수 있습니다. 예를 들어, 초등학교 수학 문제에서 정확도를 7.5% 향상시킬 수 있습니다. 우리는 여러 평가기의 앙상블이 단일 평가기의 피드백보다 더 우수한 합의를 달성함을 보여주며, 각 전문 모델의 강점을 유기적으로 활용함으로써 성능을 극대화함을 입증했습니다. 실험 결과, 제안한 방법이 이미지 생성, 영상 질의 응답, 수학적 추론, 로봇 조작 등 다양한 제로샷 멀티모달 작업에 일반적으로 적용 가능한 프레임워크로 활용될 수 있음을 확인했습니다. 프로젝트 페이지: https://energy-based-model.github.io/composing-pretrained-models.