공동 예제 선택을 통한 다중 모드 대조 학습(JEST)
JEST(공동 예제 선택을 통한 다중 모드 대조 학습)는 DeepMind 연구팀이 2024년에 제안한 새로운 알고리즘입니다.공동 사례 선택을 통한 데이터 큐레이션으로 다중 모드 학습이 더욱 가속화됩니다.JEST는 ChatGPT와 같은 대규모 언어 모델 학습 시 발생하는 높은 에너지 소비 문제를 해결하는 것을 목표로 합니다. JEST 알고리즘은 대규모 "슈퍼 배치"에서 고품질 하위 배치를 선택하여 학습함으로써 필요한 컴퓨팅 리소스와 시간을 크게 줄입니다.
JEST 알고리즘의 핵심 아이디어는 다중 모드 대조 학습과 공동 예제 선택을 활용하여 학습 효율성을 개선하는 것입니다. 먼저 전체 하위 배치의 학습 가능성을 평가한 다음, 점수에 따라 샘플링을 수행하여 학습에 가장 관련성이 높은 하위 배치를 선택합니다. 이러한 접근 방식은 훈련 효율성을 향상시킬 뿐만 아니라 다중 모드 학습도 가속화합니다. 50%, 80%, 90%의 필터링 비율을 사용하면 각각 20억, 10억, 6억 7천만 개의 학습 샘플만 필요하며, 30억 개의 균일 벤치마크의 최종 성능을 달성할 수 있습니다.
또한 JEST 알고리즘은 다중 해상도 학습과 온라인 배치 선택 간의 시너지 효과를 고려하여 계산 비용을 더욱 줄입니다.