
초록
의미적 코드 검색은 주어진 자연어 쿼리에 대해 의미적으로 관련성이 높은 코드 조각을 찾는 것을 목표로 한다. 최신 기술에서는 코드와 쿼리 간의 의미적 유사도를 공유하는 벡터 공간 내에서의 표현 간 거리로 정량화한다. 본 논문에서는 벡터 공간의 품질을 향상시키기 위해 간소화된 AST(추상 구문 트리)의 형태에 대해 트리 직렬화 기법을 도입하고, 코드 데이터에 대한 다모달 표현을 구축한다. 우리는 대규모이며 다국어로 구성된 단일 코퍼스인 CodeSearchNet을 활용하여 광범위한 실험을 수행하였다. 실험 결과, 본 연구에서 제안하는 트리 직렬화 표현과 다모달 학습 모델이 모두 코드 검색 성능을 향상시킴을 확인하였다. 마지막으로, 코드 데이터의 의미적 및 구문적 정보의 완전성을 이해하는 데 도움이 되도록 직관적인 정량적 평가 지표를 정의하였다.