13日前

StackOverflowの閲覧は不正行為を助長する：質問本文の追加が抽出型コード生成を改善する

Gabriel Orlanski, Alex Gittens

要約

プログラミングに関する質問に対して、そのタイトルだけでは文脈情報が欠落しているため、正確な回答は困難である。この観察に基づき、本研究ではCoNaLaデータセット（Yinら、2018年）に含まれる対応する意図（intent）と併用可能な、4万件を超えるStackOverflowの質問本文から構成されるコーパスを提示する。質問本文と意図の両方を用いて、BARTモデルを用いてこの新規タスクに対するベースラインのBLEUスコアを34.35点として確立した。さらに、抽出されたCoNaLaデータをラベル付きデータと組み合わせることで、BLEUスコアを2.8%向上させ、35.32点を達成した。この追加データを用いて、従来の最先端CoNaLaモデルを評価した結果、本研究で提案する本文と抽出データを活用する手法が、従来の最先端モデルのBLEUスコアを71.96%上回ることを確認した。最後に、アブレーション実験を通じて、BARTが無監督のマルチモーダル学習者であることを示し、その抽出行動（extractive behavior）について検証した。コードとデータは、https://github.com/gabeorlanski/stackoverflow-encourages-cheating にて公開されている。