13日前

トランスフォーマーに木構造を入力することで行うコード予測

Seohyun Kim, Jinman Zhao, Yuchi Tian, Satish Chandra
トランスフォーマーに木構造を入力することで行うコード予測
要約

コード予測(次トークン予測)の精度に関する最先端技術を進展させました。まず、最近提案されたTransformerアーキテクチャをそのまま適用するだけで、従来のニューラルおよび非ニューラルシステムを上回ることを報告します。さらに、Transformerアーキテクチャにコードの構文構造を意識させるように設計することで、Transformerベースのシステムが従来のシステムを上回る差をさらに拡大できることを示します。これにより、RNNベースのシステム(Hellendoorn他、2018年と類似)に対して18.3%、Deep3システム(Raychev他、2016年)に対して14.1%、またCode2Seq(Alon他、2018年)のコード予測向けアダプテーションに対して14.4%の精度向上を達成しました。本論文では、もともと順序データの処理を目的として設計されたTransformerにコード構造を伝えるための複数の手法を提示しています。標準的なPythonデータセットおよびFacebook社内の内部Pythonコーパスを用いた、包括的な実験評価を通じて、本提案の有効性と他の設計選択肢との比較を行っています。また、本研究のコードおよびデータ準備パイプラインは、オープンソースとして公開される予定です。