12日前

マルチモーダル表現によるニューラルコード検索

Jian Gu, Zimin Chen, Martin Monperrus
マルチモーダル表現によるニューラルコード検索
要約

意味的コード検索(Semantic code search)とは、与えられた自然言語クエリに対して、意味的に関連するコードスニペットを検索するタスクである。現在の最先端のアプローチでは、コードとクエリ間の意味的類似度が、共有ベクトル空間における表現の距離として定量化されている。本論文では、このベクトル空間の性能向上を目的として、簡略化されたAST(抽象構文木)に対して木シリアル化(tree-serialization)手法を導入し、コードデータに対してマルチモーダル表現を構築する。また、大規模かつ多言語な1つのコーパスであるCodeSearchNetを用いて、広範な実験を実施した。実験結果から、本研究で提案する木シリアル化表現およびマルチモーダル学習モデルが、コード検索の性能向上に寄与することが示された。最後に、コードデータの意味的・構文的情報の完全性を直感的に評価できる定量的指標を定義し、実験結果の理解を支援する。

マルチモーダル表現によるニューラルコード検索 | 最新論文 | HyperAI超神経