골든 예제로 혁신하는 인-컨텍스트 학습: 코드 수리에서 효과를 극대화하는 AuPair의 지능적 접근
대규모 언어모델(LLM)의 인-컨텍스트 학습(ICL)에서 효과적인 예시 선택은 성능 향상의 핵심이다. 기존 방법은 무작위 또는 유사도 기반으로 예시를 선정하지만, 그 효과를 측정할 수 없어 최적의 예시를 찾기 어렵다. 구글 딥마인드의 연구 논문 ‘AuPair: Golden Example Pairs for Code Repair’는 이를 해결하기 위해 시스템적인 접근을 제안한다. AuPair는 먼저 다양한 버그 코드와 수정 사례를 포함한 대규모 예시 쌍 데이터셋을 생성한다. 이후 검증 데이터셋을 활용해 각 예시 쌍이 문제 해결에 미치는 영향을 수치화한 ‘품질 행렬’을 만든다. 이 행렬을 기반으로, 평균 성능이 가장 높은 예시 쌍을 우선 선택하고, 이미 선택된 쌍이 기여한 부분을 행렬에서 제거해 중복을 방지한다. 이 과정을 반복해 보완적인 ‘황금 예시 쌍(AuPairs)’을 순차적으로 추출한다. 실험 결과, AuPairs는 무작위 예시 32개와 동일한 성능을 12개의 예시로 달성하며, 계산 효율성은 2~3배 향상됐다. 특히 CodeForces에서 학습한 AuPairs는 HackerEarth, AtCoder 등 다른 대회 데이터셋에서도 높은 성능을 보여, 도메인 간 일반화 가능성도 입증했다. 단, AuPair는 예시 생성과 평가에 막대한 계산 자원이 필요하며, 단위 테스트 등 정량적 평가 기준이 반드시 필요한 점이 한계다. 또한, 실제 소프트웨어 프로젝트보다 구조화된 대회 문제에 초점이 맞춰져 있어 현실 적용성에 제약이 있다. 결론적으로, AuPair는 코드 수리 외에도 텍스트-SQL 변환 등 유사한 도메인에 적용 가능한 예시 선택의 새로운 표준을 제시하며, ICL의 정교한 설계 가능성을 보여준다.