2ヶ月前

CodeBERT: プログラミング言語と自然言語のための事前学習モデル

Feng, Zhangyin ; Guo, Daya ; Tang, Duyu ; Duan, Nan ; Feng, Xiaocheng ; Gong, Ming ; Shou, Linjun ; Qin, Bing ; Liu, Ting ; Jiang, Daxin ; Zhou, Ming
CodeBERT: プログラミング言語と自然言語のための事前学習モデル
要約

私たちはプログラミング言語(PL)と自然言語(NL)のための双モーダル事前学習モデルであるCodeBERTを紹介します。CodeBERTは汎用的な表現を学習し、自然言語コード検索やコードドキュメンテーション生成などの下流NL-PLアプリケーションをサポートします。私たちはTransformerベースのニューラルアーキテクチャを使用してCodeBERTを開発し、置換トークン検出という事前学習タスクを組み込んだハイブリッド目的関数で訓練します。このタスクでは、ジェネレータからサンプリングされた妥当な代替案を検出します。これにより、双モーダルデータ(NL-PLペア)と単モーダルデータの両方を利用でき、前者がモデル訓練の入力トークンを提供し、後者がより良いジェネレータの学習に寄与します。私たちはモデルパラメータを微調整することで、2つのNL-PLアプリケーションにおいてCodeBERTを評価しました。結果は、CodeBERTが自然言語コード検索とコードドキュメンテーション生成の両タスクで最先端の性能を達成していることを示しています。さらに、CodeBERTがどのような知識を学習しているか調査するために、NL-PLプロービング用のデータセットを作成し、事前学習モデルのパラメータが固定されたゼロショット設定で評価を行いました。結果は、CodeBERTが以前の事前学習モデルよりもNL-PLプロービングで優れた性能を示していることを示しています。

CodeBERT: プログラミング言語と自然言語のための事前学習モデル | 最新論文 | HyperAI超神経