HyperAIHyperAI

Command Palette

Search for a command to run...

CoDesc:大規模なコード・説明並列データセット

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

概要

自然言語とソースコード間の翻訳は、開発者が自然言語でプログラムの理解、アイデアの構築、検索、記述を行うことを可能にすることで、ソフトウェア開発を支援する。業界および研究コミュニティにおける関心が高まる一方で、このタスクは、深層ニューラルモデルの学習に適した大規模な標準データセットの不足、標準的なノイズ除去手法の欠如、評価ベンチマークの不在といった課題により、しばしば困難である。その結果、研究者たちは新たな小規模データセットを収集せざるを得ず、発表された研究間で一貫性が欠ける状況が生じている。本研究では、420万件のJavaメソッドと自然言語による記述から構成される大規模な並列データセット「CoDesc」を提示する。広範な分析を通じて、データセット内の顕著なノイズパターンを特定し、除去した。CoDescがコード-記述ペアに関する2つの補完的なタスク、すなわちコード要約とコード検索において優れた性能を発揮することを示した。具体的には、コード検索の性能を最大22%向上させ、コード要約においては新たな最先端の成果を達成した。さらに、CoDescが事前学習-微調整(pre-training–fine-tuning)の枠組みにおいて有効であることを示し、Java向けの事前学習言語モデルの構築に向けた可能性を示した。今後の研究を促進するため、本研究ではデータセット、データ処理ツール、およびベンチマークを https://github.com/csebuetnlp/CoDesc にて公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています