2ヶ月前
CodeTrans: シリコンのコード言語を解読するために 自監督深層学習と高性能計算を使用して
Elnaggar, Ahmed ; Ding, Wei ; Jones, Llion ; Gibbs, Tom ; Feher, Tamas ; Angerer, Christoph ; Severini, Silvia ; Matthes, Florian ; Rost, Burkhard

要約
現在、成熟した自然言語処理アプリケーションが増加しており、人々の生活をより便利にしています。これらのアプリケーションは、ソフトウェア工学における言語であるソースコードによって構築されています。しかし、ソースコード言語の理解を目的とした、ソフトウェア工学プロセスを容易にするためのアプリケーションについては、まだ十分な研究が行われていません。一方で、トランスフォーマーモデル、特に転移学習との組み合わせは、自然言語処理タスクにおいて強力な技術であることが証明されています。これらの進展は、ソースコードの処理やソフトウェア工学タスクの解決に向けて有望な方向性を示しています。本論文では、CodeTrans(コードトランス)について説明します。CodeTransは、ソフトウェア工学分野でのタスクを対象とするエンコーダ-デコーダ型トランスフォーマーモデルであり、6つのソフトウェア工学タスク(13のサブタスクを含む)におけるエンコーダ-デコーダ型トランスフォーマーモデルの効果性を探ります。さらに、単一タスク学習、転移学習、マルチタスク学習、およびファインチューニング付きマルチタスク学習などの異なる訓練戦略の影響について調査しました。CodeTransはすべてのタスクにおいて最先端モデルを上回る性能を示しています。将来のソフトウェア工学分野での研究を加速するため、私たちが事前訓練したCodeTransのモデルを公開しています。https://github.com/agemagician/CodeTrans