
要約
会話文の要約は、自然な流れや不順応性、その他の書面では通常見られない問題により、困難な課題である。本研究では、BERTSumモデルを会話的言語に初めて適用した。我々は、園芸や料理、ソフトウェア設定、スポーツなど、多岐にわたるトピックにおける説明動画の抽象的要約を生成している。語彙の豊かさを高めるために、転移学習を用い、書面および口語的英語を含む複数の大規模なクロスドメインデータセット上でモデルを事前学習した。また、音声認識(ASR)システムの出力に含まれる文構造や句読点の欠落を補うため、トランスクリプトの前処理を実施している。評価は、How2およびWikiHowデータセットに対してROUGEおよびContent-F1スコアを用いて行われた。さらに、HowTo100MとYouTubeから構築したデータセットからランダムに選択された要約について、人間の評価者による盲検評価を実施した。その結果、人間のコンテンツ作成者が作成した要約と同等に、文章の自然さと有用性に近い水準を達成した。WikiHowの記事(スタイルやトピックが多様)に対しては、現在の最先端(SOTA)手法を上回る性能を示した一方で、標準的なCNN/DailyMailデータセットでは性能の低下が見られなかった。本モデルは、異なるスタイルやドメインにわたって高い汎化能力を示すため、インターネット上のコンテンツのアクセシビリティおよび検索可能性を向上させる大きな可能性を秘めている。今後、知能型バーチャルアシスタントの機能として統合することを想定しており、ユーザーの要請に応じて、書面および口語の指示コンテンツの両方を要約できるようになることが期待される。