17일 전

제로샷 문서 이미지 질의 응답을 위한 레이아웃 및 작업 인식 지시 프롬프트

Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang
제로샷 문서 이미지 질의 응답을 위한 레이아웃 및 작업 인식 지시 프롬프트
초록

레이아웃 인지 사전 훈련 모델은 문서 이미지 질의 응답(task)에서 상당한 진전을 이뤘다. 이러한 모델들은 OCR 도구를 통해 얻은 텍스트 경계 상자 좌표로부터 문서 이미지 내 레이아웃 정보를 포착하기 위해 기존 언어 모델에 추가적인 학습 가능한 모듈을 도입한다. 그러나 이러한 추가 모듈은 방대한 문서 이미지 데이터를 기반으로 사전 훈련이 필요하며, 이로 인해 최근 제로샷 학습에서 유망한 성과를 보이고 있는 사전 지도된 지시 조정(instruction-tuning) 언어 기반 모델을 직접 활용하기 어렵다. 본 연구에서는, Claude와 ChatGPT와 같은 지시 조정 언어 모델이 공백과 줄바꿈을 통해 레이아웃 정보를 이해할 수 있음을 발견하였다. 이 관찰을 바탕으로, 레이아웃 인지 문서 콘텐츠와 작업 인지 지시를 포함하는 LAyout and Task aware Instruction Prompt (LATIN-Prompt)을 제안한다. 구체적으로, 전자는 OCR 도구를 통해 획득한 텍스트 세그먼트 간의 레이아웃 정보를 적절한 공백과 줄바꿈을 사용하여 복원하고, 후자는 생성된 답변이 형식적 요구사항을 충족하도록 보장한다. 또한, Alpaca와 같은 소규모 지시 조정 모델의 성능을 향상시키기 위해 LAyout and Task aware Instruction Tuning (LATIN-Tuning)을 제안한다. 실험 결과, LATIN-Prompt는 Claude와 ChatGPT의 제로샷 성능을 기존 최고 성능(SOTA) 모델의 미세 조정(fine-tuning) 성능과 비교할 만큼 향상시켰으며, LATIN-Tuning은 Alpaca의 제로샷 성능을 크게 개선했다. 예를 들어, LATIN-Prompt는 DocVQA에서 Claude의 성능을 263%, ChatGPT의 성능을 20% 향상시켰으며, LATIN-Tuning은 Alpaca의 성능을 87.7% 향상시켰다. 정량적 및 정성적 분석을 통해 LATIN-Prompt와 LATIN-Tuning의 효과성을 입증하였다. 본 연구에서는 보충 자료에 코드를 공개할 예정이며, 향후 연구의 발전을 지원하기 위해 공개할 계획이다.

제로샷 문서 이미지 질의 응답을 위한 레이아웃 및 작업 인식 지시 프롬프트 | 최신 연구 논문 | HyperAI초신경