Back to Headlines

NVIDIA Llama Nemotron 모델로 RAG 파이프라인의 추론 능력 강화하기

3일 전

검색 증강 생성(RAG) 시스템의 정확도를 높이기 위해 NVIDIA의 Llama Nemotron 모델을 활용한 추론 기반 쿼리 리라이팅 기술이 주목받고 있다. 사용자가 모호하거나 암시적인 의도로 질문할 경우, 기존 RAG는 정확한 정보를 찾기 어렵다. 예를 들어 "저해상도 언어용 LLM 훈련 세션"이라는 질문은 실제로는 '다국어', '소규모 데이터 언어', '국가주권형 AI'와 같은 개념을 의미할 수 있으나, 원문 그대로 검색하면 관련 세션이 제대로 나와지 않는다. 이 문제를 해결하기 위해 NVIDIA는 Nemotron Super 49B v1 모델을 활용해 쿼리 분석 및 확장(Q2E) 기법을 도입했다. 이 모델은 사용자 질문의 핵심을 추출하고, '저해상도 언어'라는 표현을 '한국어', '프랑스어', '다국어 LLM 개발', '제한된 데이터 환경' 등과 같은 관련 키워드로 확장한다. 이를 통해 기존 검색에서 20위 밖으로 밀렸던 세션들이 7위, 5위로 상승하며 관련성 높은 결과를 도출할 수 있었다. 이러한 쿼리 리라이팅은 BM25 기반 리랭킹에서도 효과를 발휘하며, 세션의 의미적 유사도를 높여 정확도@K를 크게 향상시킨다. 특히 고도화된 AI 응용 분야, 예를 들어 기업 내 지식 관리나 전문 기술 세션 검색에서 정밀도가 속도보다 우선되는 상황에서 매우 유용하다. 단, 모델 추론으로 인한 지연과 대량 문서 처리의 복잡성은 도전 과제다. 하지만 NVIDIA NeMo Retriever와 결합하면 쿼리 확장, 임베딩, 리랭킹을 가속화해 실용적인 RAG 파이프라인 구축이 가능하다. 정확한 정보 접근이 핵심인 분야에서는 이 기술이 RAG 성능을 획기적으로 향상시킬 수 있다.

Related Links

NVIDIA Llama Nemotron 모델로 RAG 파이프라인의 추론 능력 강화하기 | 헤드라인 | HyperAI초신경