HyperAIHyperAI

Command Palette

Search for a command to run...

StackOverflowの閲覧は不正行為を助長する:質問本文の追加が抽出型コード生成を改善する

Gabriel Orlanski Alex Gittens

概要

プログラミングに関する質問に対して、そのタイトルだけでは文脈情報が欠落しているため、正確な回答は困難である。この観察に基づき、本研究ではCoNaLaデータセット(Yinら、2018年)に含まれる対応する意図(intent)と併用可能な、4万件を超えるStackOverflowの質問本文から構成されるコーパスを提示する。質問本文と意図の両方を用いて、BARTモデルを用いてこの新規タスクに対するベースラインのBLEUスコアを34.35点として確立した。さらに、抽出されたCoNaLaデータをラベル付きデータと組み合わせることで、BLEUスコアを2.8%向上させ、35.32点を達成した。この追加データを用いて、従来の最先端CoNaLaモデルを評価した結果、本研究で提案する本文と抽出データを活用する手法が、従来の最先端モデルのBLEUスコアを71.96%上回ることを確認した。最後に、アブレーション実験を通じて、BARTが無監督のマルチモーダル学習者であることを示し、その抽出行動(extractive behavior)について検証した。コードとデータは、https://github.com/gabeorlanski/stackoverflow-encourages-cheating にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています