데이터를 더 주면 LLM 성능이 급상승한다: 실전에서 활용할 수 있는 데이터 확장 전략
대규모 언어 모델(LLM)의 성능을 크게 향상시키기 위해선 단순히 기존 훈련 데이터를 넘어서, 사용 시점에 추가적인 관련 데이터를 제공하는 것이 핵심입니다. LLM은 사전 훈련 단계에서 인터넷 전체를 소비하며 데이터를 학습하지만, 실제 활용 시에는 사용자가 요청한 질문에 적절히 대응할 수 있도록 충분한 맥락 데이터를 제공받아야 합니다. 그러나 파일 이름, 경로, 수정 날짜, 페이지 번호 등 기존에 존재하는 메타데이터를 누락하거나, 문서 유형, 인명, 날짜 등 추가 정보를 추출하지 않으면 LLM의 정확도가 크게 떨어질 수 있습니다. 이러한 문제를 해결하기 위해선 먼저 애플리케이션 내부에서 이미 확보 가능한 데이터를 활용해야 합니다. 예를 들어, 사용자가 업로드한 파일의 이름이나 경로, 수정 시간, 페이지 번호 등을 컨텍스트에 포함하면, 사용자가 "2023년 보고서"를 언급했을 때 정확한 문서를 식별할 수 있습니다. 또한 문서 유형(계약서, 세금 보고서 등)을 미리 추출해두면 검색 및 질의 응답 시 필터링이 가능해져, 불필요한 정보를 제거하고 정확도를 높일 수 있습니다. 추가로, 사전에 정보를 추출하는 방식(예: LLM을 활용해 문서에서 인명, 날짜, 항목 등을 추출)과 실시간으로 필요한 정보를 요청하는 방식(예: LLM이 도구를 호출해 인터넷 검색 또는 문서 분석을 수행)을 병행할 수 있습니다. 특히 LLM의 훈련 데이터가 오래된 경우, 최근 뉴스나 이벤트에 대한 질문에는 실시간 정보 검색이 필수적입니다. 이러한 데이터 확장 전략은 RAG(Retrieval-Augmented Generation) 시스템에서 특히 효과적입니다. 예를 들어, 사용자가 "엑셀 파일만 검색해줘"라고 요청했을 때, 메타데이터 기반 필터링을 통해 비엑셀 파일은 제외하고 컨텍스트를 구성함으로써 LLM의 토큰 사용 효율과 정답률을 동시에 향상시킬 수 있습니다. 결론적으로, LLM의 성능은 단순히 모델 크기나 훈련 데이터에 국한되지 않습니다. 사용 시점에 적절한 추가 데이터를 제공하는 것이 성공적인 AI 애플리케이션의 핵심입니다.