6ヶ月前

データセット

自然言語処理

AIインフラストラクチャ

自然言語処理

マルチモーダル

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

概要

自然言語とソースコード間の翻訳は、開発者が自然言語でプログラムの理解、アイデアの構築、検索、記述を行うことを可能にすることで、ソフトウェア開発を支援する。業界および研究コミュニティにおける関心が高まる一方で、このタスクは、深層ニューラルモデルの学習に適した大規模な標準データセットの不足、標準的なノイズ除去手法の欠如、評価ベンチマークの不在といった課題により、しばしば困難である。その結果、研究者たちは新たな小規模データセットを収集せざるを得ず、発表された研究間で一貫性が欠ける状況が生じている。本研究では、420万件のJavaメソッドと自然言語による記述から構成される大規模な並列データセット「CoDesc」を提示する。広範な分析を通じて、データセット内の顕著なノイズパターンを特定し、除去した。CoDescがコード-記述ペアに関する2つの補完的なタスク、すなわちコード要約とコード検索において優れた性能を発揮することを示した。具体的には、コード検索の性能を最大22％向上させ、コード要約においては新たな最先端の成果を達成した。さらに、CoDescが事前学習－微調整（pre-training–fine-tuning）の枠組みにおいて有効であることを示し、Java向けの事前学習言語モデルの構築に向けた可能性を示した。今後の研究を促進するため、本研究ではデータセット、データ処理ツール、およびベンチマークを https://github.com/csebuetnlp/CoDesc にて公開する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

自然言語処理

AIインフラストラクチャ

自然言語処理

マルチモーダル

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

概要

自然言語とソースコード間の翻訳は、開発者が自然言語でプログラムの理解、アイデアの構築、検索、記述を行うことを可能にすることで、ソフトウェア開発を支援する。業界および研究コミュニティにおける関心が高まる一方で、このタスクは、深層ニューラルモデルの学習に適した大規模な標準データセットの不足、標準的なノイズ除去手法の欠如、評価ベンチマークの不在といった課題により、しばしば困難である。その結果、研究者たちは新たな小規模データセットを収集せざるを得ず、発表された研究間で一貫性が欠ける状況が生じている。本研究では、420万件のJavaメソッドと自然言語による記述から構成される大規模な並列データセット「CoDesc」を提示する。広範な分析を通じて、データセット内の顕著なノイズパターンを特定し、除去した。CoDescがコード-記述ペアに関する2つの補完的なタスク、すなわちコード要約とコード検索において優れた性能を発揮することを示した。具体的には、コード検索の性能を最大22％向上させ、コード要約においては新たな最先端の成果を達成した。さらに、CoDescが事前学習－微調整（pre-training–fine-tuning）の枠組みにおいて有効であることを示し、Java向けの事前学習言語モデルの構築に向けた可能性を示した。今後の研究を促進するため、本研究ではデータセット、データ処理ツール、およびベンチマークを https://github.com/csebuetnlp/CoDesc にて公開する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています