2달 전

CodeT5: Identifier-aware 통합 사전 학습 인코더-디코더 모델을 이용한 코드 이해 및 생성

Wang, Yue ; Wang, Weishi ; Joty, Shafiq ; Hoi, Steven C. H.
CodeT5: Identifier-aware 통합 사전 학습 인코더-디코더 모델을 이용한 코드 이해 및 생성
초록

자연어(NL)를 위한 사전 학습 모델인 BERT와 GPT는 최근 프로그래밍 언어(PL)로도 잘 전이되며, 코드 관련 작업의 광범위한 집합에 크게 기여함을 입증하였습니다. 그러나 이들의 성공에도 불구하고, 현재 대부분의 방법은 생성 작업(또는 이해 작업)에 최적화되지 않은 인코더만(또는 디코더만) 사용하는 사전 학습에 의존하거나, 코드 조각을 NL과 동일하게 처리하여 PL의 특수한 특성인 토큰 유형 등을 무시하고 있습니다. 우리는 개발자가 지정한 식별자를 통해 더 나은 코드 의미를 활용할 수 있는 통합된 사전 학습 인코더-디코더 Transformer 모델인 CodeT5를 제시합니다. 우리의 모델은 통합된 프레임워크를 사용하여 코드 이해와 생성 작업을 원활하게 지원하며, 다중 작업 학습을 가능하게 합니다. 또한, 새로운 식별자 인식 사전 학습 작업을 제안하여 모델이 마스킹된 토큰이 식별자인지 구분하고 이를 복원할 수 있도록 하였습니다. 더불어, 사용자가 작성한 코드 주석을 이용해 양방향 듀얼 생성 작업을 제안하여 NL-PL 간의 정렬성을 개선하였습니다. 포괄적인 실험 결과, CodeT5는 코드 결함 검출 및 클론 검출 등의 이해 작업과 PL-NL, NL-PL, PL-PL 등 다양한 방향의 생성 작업에서 기존 방법보다 크게 우수함을 보였습니다. 추가 분석 결과, 우리의 모델이 코드에서 의미 정보를 더 잘 포착할 수 있음을 확인하였습니다. 우리의 코드와 사전 학습 모델은 https://github.com/salesforce/CodeT5 에서 제공됩니다.

CodeT5: Identifier-aware 통합 사전 학습 인코더-디코더 모델을 이용한 코드 이해 및 생성 | 최신 연구 논문 | HyperAI초신경