Command Palette

Search for a command to run...

14일 전

일반화된 검색 기반 생성을 위한 혼합 모달 검색 접근

Chenghao Zhang Guanting Dong Xinyu Yang Zhicheng Dou

일반화된 검색 기반 생성을 위한 혼합 모달 검색 접근

초록

검색 기반 생성(Retrieval-Augmented Generation, RAG)은 외부 코퍼스에서 관련 문서를 검색함으로써 대규모 언어 모델(Large Language Models, LLMs)의 성능을 향상시키는 강력한 패러다임으로 부상하고 있다. 그러나 기존의 RAG 시스템은 주로 단일 모달(텍스트) 문서에 초점을 두고 있으며, 쿼리와 문서가 텍스트와 이미지 등 다양한 모달을 복합적으로 포함하는 현실 세계의 시나리오에서는 종종 한계를 드러낸다. 본 논문에서는 시각-언어 생성을 향상시키기 위해 혼합 모달 정보를 검색하고 추론하는 데 초점을 맞춘 '일반화된 검색 기반 생성(Universal Retrieval-Augmented Generation, URAG)'의 도전 과제를 다룬다. 이를 위해 우리는 URAG 시나리오에 특화된 통합형 혼합 모달에서 혼합 모달로의 검색기인 Nyx를 제안한다. 현실적인 혼합 모달 데이터의 부족 문제를 완화하기 위해, 웹 문서를 활용하여 생성 및 필터링을 자동화한 4단계 파이프라인을 도입하여, 실제 정보 수요를 보다 잘 반영하는 다양한 혼합 모달 질문-답변 쌍을 포함한 NyxQA 데이터셋을 구축하였다. 이 고품질 데이터셋을 기반으로, Nyx는 두 단계 학습 프레임워크를 채택한다. 먼저, NyxQA와 다양한 오픈소스 검색 데이터셋을 사용해 사전 학습을 수행한 후, 하류의 시각-언어 모델(Vision-Language Models, VLMs)의 피드백을 활용한 지도적 미세조정을 통해 검색 결과를 생성 모델의 선호도와 일치시킨다. 실험 결과, Nyx는 기존 텍스트 중심 RAG 벤치마크에서 경쟁력 있는 성능을 보일 뿐만 아니라, 더 일반적이고 현실적인 URAG 환경에서도 뛰어난 성능을 발휘하며, 시각-언어 작업에서 생성 품질을 크게 향상시킨다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
일반화된 검색 기반 생성을 위한 혼합 모달 검색 접근 | 연구 논문 | HyperAI초신경