11일 전

DIN-SQL: 텍스트-SQL의 분해된 문맥 내 학습(Self-Correction 포함)

Mohammadreza Pourreza, Davood Rafiei
DIN-SQL: 텍스트-SQL의 분해된 문맥 내 학습(Self-Correction 포함)
초록

텍스트-SQL 변환이라는 도전적인 과제에서, 대규모 언어 모델(Large Language Models, LLMs)을 사용한 프롬프팅 접근법과 미세조정된 모델 간에는 여전히 큰 성능 격차가 존재하며, 이는 Spider와 같은 데이터셋에서 평가된 결과로 확인된다. LLM의 추론 과정에서의 성능을 향상시키기 위해, 본 연구는 작업을 더 작은 하위 작업으로 분해하는 것이 효과적일 수 있음을 탐구한다. 특히, 생성 문제를 하위 문제들로 분할하고, 그 하위 문제들의 해결책을 LLM에 입력하는 방식이 성능을 크게 향상시키는 효과적인 접근법임을 보여준다. 세 가지 LLM에 대한 실험 결과, 이 접근법은 단순한 피샷(few-shot) 성능을 약 10% 가량 지속적으로 향상시켰으며, 결과적으로 LLM의 정확도가 최고 수준(SOTA)에 근접하거나 이를 초과하는 수준에 도달했다. Spider의 보류 테스트 세트에서 실행 정확도 기준 최고 성능(SOTA)은 79.9였으나, 본 연구의 접근법을 사용한 최신 SOTA는 85.3으로 기록되었다. 또한, 인컨텍스트 학습(in-context learning)을 활용한 본 접근법은 최소 5% 이상 높은 성능을 보이며, 많은 심층 미세조정된 모델들을 능가했다. 더불어 BIRD 벤치마크에서 평가한 결과, 본 접근법은 실행 정확도 55.9%를 달성하여, 해당 벤치마크의 보류 테스트 세트에서 새로운 SOTA를 수립했다.

DIN-SQL: 텍스트-SQL의 분해된 문맥 내 학습(Self-Correction 포함) | 최신 연구 논문 | HyperAI초신경