8ヶ月前

マルチタスク学習

アプローチ／フレームワーク

自然言語処理

Paras Jain* Ajay Jain* Tianjun Zhang Pieter Abbeel Joseph E. Gonzalez Ion Stoica

概要

最近の研究では、ソースコードのコンテキストからトークンを再構築することにより、コンテキストに依存した表現を学習しています。英語でのコード要約などの下流の意味理解タスクにおいて、これらの表現はプログラムの機能性を捉えることが望ましいです。しかし、私たちは人気のある再構築ベースのBERTモデルが、セマンティクスを保ったままでもソースコードの編集に対して敏感であることを示しました。そこで、ContraCode（対照的な事前学習タスク）を提案します。このタスクは、多くの非同等な分散子の中からプログラムの機能的に類似したバリエーションを識別する神経ネットワークを事前学習します。これらのバリエーションは、データ拡張の一形態として自動化されたソース・ツー・ソース・コンパイラを使用して効率的に生成されます。対照的な事前学習は、JavaScriptの要約とTypeScriptの型推論精度を2%から13%向上させます。また、新たなゼロショットJavaScriptコードクローン検出データセットを提案し、ContraCodeがより堅牢で意味論的に有意義であることを示しました。これにより、敵対的設定ではRoBERTaに対して39% AUROCで優れ、自然なコードでは最大5%向上しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチタスク学習

アプローチ／フレームワーク

自然言語処理

Paras Jain* Ajay Jain* Tianjun Zhang Pieter Abbeel Joseph E. Gonzalez Ion Stoica

概要

最近の研究では、ソースコードのコンテキストからトークンを再構築することにより、コンテキストに依存した表現を学習しています。英語でのコード要約などの下流の意味理解タスクにおいて、これらの表現はプログラムの機能性を捉えることが望ましいです。しかし、私たちは人気のある再構築ベースのBERTモデルが、セマンティクスを保ったままでもソースコードの編集に対して敏感であることを示しました。そこで、ContraCode（対照的な事前学習タスク）を提案します。このタスクは、多くの非同等な分散子の中からプログラムの機能的に類似したバリエーションを識別する神経ネットワークを事前学習します。これらのバリエーションは、データ拡張の一形態として自動化されたソース・ツー・ソース・コンパイラを使用して効率的に生成されます。対照的な事前学習は、JavaScriptの要約とTypeScriptの型推論精度を2%から13%向上させます。また、新たなゼロショットJavaScriptコードクローン検出データセットを提案し、ContraCodeがより堅牢で意味論的に有意義であることを示しました。これにより、敵対的設定ではRoBERTaに対して39% AUROCで優れ、自然なコードでは最大5%向上しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています