17일 전

기반으로 한 리트리ieval-증강 생성 관계 추출

Sefika Efeoglu, Adrian Paschke
기반으로 한 리트리ieval-증강 생성 관계 추출
초록

정보 추출(Information Extraction, IE)은 엔티티 및 관계 추출(Relation Extraction, RE) 기법을 활용하여 비구조화된 텍스트 데이터를 구조화된 형식으로 변환하는 전환적인 과정이다. 이 프레임워크 내에서 두 엔티티 간의 관계를 식별하는 것은 핵심적인 역할을 한다. 다양한 관계 추출 기법이 존재하지만, 그 효율성은 레이블링된 데이터 접근성과 막대한 계산 자원에 크게 의존한다. 이러한 문제를 해결하기 위해 대규모 언어 모델(Large Language Models, LLMs)이 주목받고 있으며, 이는 자체 학습 데이터에 기반하여 환상적(factual hallucination) 응답을 생성할 수 있다는 한계가 있다. 본 연구에서는 이러한 한계를 극복하기 위해 검색 기반 증강 생성(Retrieved-Augmented Generation, RAG) 기법을 활용한 관계 추출(RAG4RE) 방법론을 제안한다. 이는 관계 추출 작업의 성능 향상에 기여할 수 있는 새로운 길을 제시한다.본 연구는 다양한 LLM을 활용하여 제안한 RAG4RE 방법론의 효과성을 평가하였다. TACRED, TACREV, Re-TACRED, SemEval RE 등 기존의 표준 벤치마크를 활용하여 RAG4RE의 종합적인 성능을 검증하였다. 특히, Flan T5, Llama2, Mistral 등 주요 LLM들을 기반으로 실험을 수행하였다. 연구 결과, RAG4RE는 단순히 LLM 기반의 기존 관계 추출 방법보다 뛰어난 성능을 보였으며, 특히 TACRED 데이터셋 및 그 변형에서 두드러진 우수성을 입증하였다. 더불어 TACRED 및 TACREV 데이터셋 전반에 걸쳐 기존의 관계 추출 기법들과 비교하여 뛰어난 성능을 나타내었으며, 자연어 처리 분야에서 관계 추출 작업의 발전 가능성을 입증하고 있다.