12日前

CoDesc:大規模なコード・説明並列データセット

Masum Hasan, Tanveer Muttaqueen, Abdullah Al Ishtiaq, Kazi Sajeed Mehrab, Md. Mahim Anjum Haque, Tahmid Hasan, Wasi Uddin Ahmad, Anindya Iqbal, Rifat Shahriyar
CoDesc:大規模なコード・説明並列データセット
要約

自然言語とソースコード間の翻訳は、開発者が自然言語でプログラムの理解、アイデアの構築、検索、記述を行うことを可能にすることで、ソフトウェア開発を支援する。業界および研究コミュニティにおける関心が高まる一方で、このタスクは、深層ニューラルモデルの学習に適した大規模な標準データセットの不足、標準的なノイズ除去手法の欠如、評価ベンチマークの不在といった課題により、しばしば困難である。その結果、研究者たちは新たな小規模データセットを収集せざるを得ず、発表された研究間で一貫性が欠ける状況が生じている。本研究では、420万件のJavaメソッドと自然言語による記述から構成される大規模な並列データセット「CoDesc」を提示する。広範な分析を通じて、データセット内の顕著なノイズパターンを特定し、除去した。CoDescがコード-記述ペアに関する2つの補完的なタスク、すなわちコード要約とコード検索において優れた性能を発揮することを示した。具体的には、コード検索の性能を最大22%向上させ、コード要約においては新たな最先端の成果を達成した。さらに、CoDescが事前学習-微調整(pre-training–fine-tuning)の枠組みにおいて有効であることを示し、Java向けの事前学習言語モデルの構築に向けた可能性を示した。今後の研究を促進するため、本研究ではデータセット、データ処理ツール、およびベンチマークを https://github.com/csebuetnlp/CoDesc にて公開する。

CoDesc:大規模なコード・説明並列データセット | 最新論文 | HyperAI超神経