Command Palette
Search for a command to run...
SSRB: 거대한 이질적인 반구조화 데이터에 대한 직접적인 자연어 질의
SSRB: 거대한 이질적인 반구조화 데이터에 대한 직접적인 자연어 질의
초록
자연어(NL) 쿼리를 사용하여 반구조화된 데이터를 검색하는 것은 지속적인 관심을 끌고 있으며, 더 넓은 대중이 정보에 쉽게 접근할 수 있도록 하고 있다. LLM 에이전트 및 RAG 시스템과 같은 다양한 응용 프로그램이 반구조화된 데이터를 검색하고 상호작용하는 방식으로 등장하면서 두 가지 주요 도전 과제가 부각되고 있다. 첫째, 도메인의 다양성과 스키마 변형의 증가로 인해 도메인 맞춤형 솔루션은 비용 측면에서 실현 불가능해지고 있다. 둘째, 자연어 쿼리의 복잡성이 증가하면서 정확한 필드 매칭 조건과 모호한 의미적 요구 조건을 동시에 포함하게 되었으며, 다수의 필드와 암묵적인 추론을 포함하는 경우가 많아지고 있다. 이러한 특성들은 형식 언어 기반 검색이나 키워드 기반 검색 방식만으로는 충분하지 않음을 나타낸다. 본 연구에서는 반구조화된 데이터 컬렉션을 직접 인덱싱하고 자연어 쿼리를 이해함으로써 신경망 기반 검색기(neural retrievers)를 통합적이고 비형식적인 쿼리 해결책으로 탐구한다. 우리는 LLM 기반 자동 평가를 활용하고, LLM 생성 및 필터링을 통해 대규모 반구조화 검색 벤치마크(SSRB: Semi-Structured Retrieval Benchmark)를 구축하였다. 이 벤치마크는 6개 도메인에서 99개의 서로 다른 스키마로부터 수집된 총 1,400만 개의 반구조화된 객체와 함께, 정확한 매칭 조건과 모호한 매칭 조건을 모두 포함하는 8,485개의 테스트 쿼리를 포함하고 있다. 주요 검색기들을 체계적으로 평가한 결과, 현재 최고 성능을 기록하는 모델들은 만족스러운 성능을 달성할 수 있음이 확인되었으나, 여전히 매칭 제약 조건에 대한 정밀한 이해가 부족함을 보였다. 그러나 밀도 기반 검색기(dense retrievers)를 도메인 내에서 훈련하는 방식을 통해 성능을 크게 향상시킬 수 있음을 확인하였다. 본 연구에서 제안하는 SSRB는 향후 복잡한 쿼리를 포함한 반구조화된 데이터 검색 분야의 연구에 소중한 자원이 될 것으로 기대하며, 본 연구가 더 깊이 있는 반구조화 검색 기술 탐구를 촉진하기를 희망한다.