13일 전
NL2CMD: 자연어에서 Bash 명령어로의 번역을 위한 업데이트된 워크플로우
Quchen Fu, Zhongwei Teng, Marco Georgaklis, Jules White, Douglas C. Schmidt

초록
자연어를 바시 명령어로 변환하는 작업은 최근 몇 년간 주목받고 있는 연구 분야이다. 대부분의 연구 노력은 더 정확한 번역 모델을 개발하는 데 집중되어 왔다. 우리가 알고 있는 바에 따르면, 현재까지 공개된 데이터셋은 단 두 개뿐이며, 그 중 하나는 다른 데이터셋을 기반으로 하고 있다. 이 두 데이터셋 모두 기존의 데이터 소스(예: Stack Overflow, 커뮤니티 기반 크라우드소싱 플랫폼 등)를 활용해 데이터를 크롤링한 후, 전문가를 고용하여 영문 텍스트 또는 바시 명령어의 정확성을 검증하고 수정하는 방식을 취하고 있다. 본 논문은 자연에서 바시 명령어를 생성하는 연구에 대해 두 가지 기여를 한다. 첫째, 대표적인 최신 번역 모델을 소개하며, 해당 모델이 영문 텍스트로부터 바시 명령어를 생성하는 데 어떻게 활용되는지 설명한다. 둘째, 기존 데이터셋보다 6배 이상 크고, 인간의 개입을 최소화하며 자동으로 생성된 새로운 NL2CMD 데이터셋을 제안한다. 생성 파이프라인은 기존의 바시 명령어에 의존하지 않기 때문에, 명령어의 분포와 유형을 사용자의 목적에 맞게 유연하게 조정할 수 있다. 또한 본 연구는 ChatGPT가 이 작업에 있어 데이터 생성 도구로서의 잠재력을 평가하고, 그 성능을 검토한다. 실험 결과를 통해 본 데이터셋의 규모와 다양성이 의미 있는 의미 구문 분석 연구 기회를 제공할 수 있음을 입증하였다.