HyperAIHyperAI

Command Palette

Search for a command to run...

CiteSum: 引用テキストをガイドとする科学的極端要約と限られた監督下でのドメイン適応

Yuning Mao Ming Zhong Jiawei Han

概要

科学極端要約(TLDR)は、科学論文の超短い要約を作成することを目的としています。これまでの科学TLDRデータセットの作成試みは、大量の人間による注釈と専門知識が必要であったため、スケールアップに失敗しました。本論文では、引用テキストから科学論文のTLDR要約を自動的に抽出する単純かつ効果的な手法を提案します。提案手法に基づき、人間による注釈なしで新しいベンチマークデータセットCiteSumを作成しました。これは、以前の人間がキュレーションしたデータセットSciTLDRよりも約30倍大きいです。私たちはCiteSumの包括的な分析を行い、そのデータ特性を検討し、強力なベースラインを確立しました。さらに、CiteSumで事前学習されたモデル(CITESと命名)を新たなタスクやドメインに適応させることで、監督が限られている状況での有用性を示しています。科学極端要約において、CITESはSciTLDRに対して微調整を行わずに多くの完全監督方法を上回り、わずか128例のみで最先端の結果を得ています。ニュース極端要約においても、CITESはXSumでベースモデル(CiteSumでの事前学習なし)に対して大幅な改善を達成しており、例えば+7.2 ROUGE-1ゼロショット性能と最先端のファーソット性能を獲得しています。ニュース見出し生成においては、Gigaword上で非監督およびゼロショット方法の中で最良の性能を発揮しています。私たちのデータセットとコードはhttps://github.com/morningmoni/CiteSumで入手できます


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています