Back to Headlines

Meta Superintelligence의 첫 번째 논문, RAG 효율성 혁신으로 30배 빠른 응답 시간 달성

5일 전

메타의 초지능 연구소(Meta Superintelligence, MSI)가 발표한 첫 논문 ‘REFRAG’은 기대와는 달리 기초 모델 성능 향상이 아닌, 실용적인 RAG(검색 기반 생성) 효율성 개선에 초점을 맞췄다. 기존 RAG 시스템은 지대한 인프라 비용과 지연 시간을 동반하며, 특히 시간 대기 첫 토큰(TTFT)이 사용자 경험과 경제성에 결정적 영향을 미친다. REFRAG은 이 문제를 해결하기 위해, 검색된 문서 청크를 일반적인 토큰으로 변환하지 않고, 경량 인코더로 압축한 임베딩을 미리 계산해 캐시하고, LLM이 처리할 때는 일부만 토큰으로 확장하고 나머지는 벡터 플레이스홀더로 전달하는 방식을 도입했다. 이 과정에서 정책 네트워크가 ‘어떤 청크를 확장할지’를 강화학습으로 결정하며, 결과적으로 기존 시스템보다 30배 빠른 응답 속도를 달성했다. 핵심은 LLM 내부의 임베딩 공간을 그대로 활용해 토큰으로 변환하는 과정을 생략한 점이다. 이로 인해 정확도는 유지하면서도 처리 속도와 비용 효율성이 크게 향상된다. 이는 단순한 모델 확장이 아닌, 시스템 수준의 효율성 혁신을 보여주며, 기업과 제품 팀에게 즉각적인 ROI를 제공할 수 있다. REFRAG은 강력한 리트리버나 레랭커와 병행 적용 가능해, 기존 RAG 아키텍처에 쉽게 통합될 수 있다. 이 논문은 메타가 단순한 모델 규모 확장이 아닌, 실제 제품 경제성에 직접 기여할 수 있는 문제를 해결하려는 전략적 방향을 보여주는 신호다. 벡터 DB 시장의 변동과 함께, RAG의 한계를 지적하는 딥마인드의 연구와 맞물려, 이는 기술 생태계의 근본적 재고를 유도할 수 있다. 결국, 가장 큰 혁신이 항상 더 큰 모델에서 오는 것은 아니며, RAG의 효율성 개선이 제품 경제성에 직접적인 영향을 미칠 수 있음을 보여주는 중요한 사례다.

Related Links