LAPDoc: 문서를 위한 레이아웃 인지 프롬프팅

최근 대량의 텍스트 데이터만을 활용하여 대규모 언어 모델(LLM)을 훈련하는 기술이 급속도로 발전하면서, 다양한 도메인과 작업에 걸쳐 강력한 일반화 능력을 보이고 있다. 이에 비해 문서 이해를 위해 특화된 다중 모달 트랜스포머 아키텍처를 훈련하는 추세도 나타나고 있다. 이러한 모델은 텍스트 입력과 해당 문서의 레이아웃 정보를 융합하도록 설계되어 있으며, 이를 위해 추가적인 훈련 데이터가 필요한 별도의 피니팅 단계를 포함한다. 현재까지 LLM과 유사한 일반화 능력을 갖춘 문서 전용 트랜스포머 모델은 존재하지 않는다. 이는 문서 이해 작업에 있어서 텍스트 기반 LLM과 다중 모달 문서 트랜스포머 중 어떤 모델을 선호해야 할지에 대한 중요한 질문을 제기한다. 본 연구에서는 순수 텍스트 기반 LLM을 문서 특화 작업에 활용할 수 있는 가능성에 대해 탐구하며, 레이아웃 정보를 풍부하게 하는 방식을 제안한다. 우리는 순수 텍스트 기반 LLM 프롬프트에 레이아웃 정보를 보완하기 위해 즉시 적용 가능한 수정 방법과 규칙 기반 기법을 탐색한다. 실험을 통해 상용 모델인 ChatGPT와 오픈소스 모델인 Solar의 성능 변화를 평가하였다. 그 결과, 제안한 접근법을 사용함으로써 두 모델 모두 다양한 표준 문서 벤치마크에서 개선된 성능을 보였음을 입증하였다. 또한, 잘못된 OCR 결과나 레이아웃 오류의 영향과 LLM이 문서 레이아웃을 효과적으로 활용하는 데서 나타나는 한계를 분석하였다. 실험 결과, 순수 텍스트만을 사용하는 경우에 비해 레이아웃 정보를 풍부하게 하는 방식을 통해 순수 텍스트 기반 LLM의 문서 이해 성능이 최대 15%까지 향상됨을 확인하였다. 결론적으로, 텍스트 기반 LLM과 다중 모달 문서 트랜스포머 중 모델 선택을 고려할 때, 본 연구에서 제안한 레이아웃 풍부화 기법은 매우 유망한 대안으로 고려되어야 한다.