데이터에서 텍스트 생성 시 단어 수준에서 환각 현상 제어하기

데이터-텍스트 생성(Data-to-Text Generation, DTG)은 구조화된 데이터를 자연어 설명으로 변환하는 것을 목표로 하는 자연어 생성(Natural Language Generation)의 하위 분야이다. 최근 신경 기반 생성기의 활용으로 이 분야는 급속도로 발전하였으며, 수작업으로 설계된 파이프라인 없이도 탁월한 문법적 능력을 보여주고 있다. 그러나 생성된 텍스트의 품질은 학습 데이터의 품질에 크게 좌우되며, 현실적인 환경에서는 구조-텍스트 쌍이 완벽하게 정렬되어 있지 않은 경우가 대부분이다. 이로 인해 최신 신경망 모델은 출력 결과에 오류 정보를 포함하는 현상을 보이며, 이를 일반적으로 '환각(Hallucination)'이라고 한다. 이러한 현상의 통제는 현재 DTG 분야에서 가장 중요한 과제 중 하나이며, 본 논문이 다루는 핵심 문제이다.기존의 연구들은 각 인스턴스 수준에서 이 문제를 다루었으며, 테이블-참조 쌍에 대해 정렬 점수(alignment score)를 활용하였다. 반면, 본 논문에서는 더 세밀한 접근 방식을 제안한다. 즉, 환각 현상은 단일 인스턴스 수준이 아닌 단어 수준에서 다뤄져야 한다고 주장한다. 구체적으로, 각 학습 인스턴스의 관련 부분을 학습할 수 있도록 단어 수준 레이블을 활용하는 다중 분기 디코더(Multi-Branch Decoder)를 제안한다. 이러한 단어 수준 레이블은 공존 분석(co-occurrence analysis)과 의존성 파싱(dependency parsing)을 기반으로 하는 간단하고 효율적인 점수 산정 절차를 통해 획득된다. 표준 WikiBio 벤치마크를 활용한 광범위한 평가(자동 평가 지표 및 인공지능 평가)를 통해 제안된 정렬 레이블의 정확성과 다중 분기 디코더의 효과성을 입증하였다. 제안된 모델은 생성 텍스트의 자연스러움과 일관성을 유지하면서도 환각 현상을 효과적으로 줄이고 통제할 수 있음을 보였다. 또한 ToTTo 데이터셋의 저품질 변형 버전에 대한 추가 실험을 통해, 본 모델이 매우 노이즈가 많은 환경에서도 성공적으로 활용될 수 있음을 확인하였다.