17日前
最初に生成を訓練し、次に訓練を生成する:少サンプルNLI向けUnitedSynT5
Sourav Banerjee, Anush Mahajan, Ayushi Agarwal, Eishkaran Singh

要約
自然言語推論(Natural Language Inference, NLI)タスクは、文対間の関係を識別することを要求し、通常は含意(entailment)、矛盾(contradiction)、中立(neutrality)の3つのカテゴリに分類される。現在の最先端(SOTA)モデルであるEntailment Few-Shot Learning(EFL)は、スタンフォード自然言語推論(SNLI)データセットにおいて93.1%の精度を達成しているが、さらなる進展はこのデータセットの限界によって阻まれている。これを解決するために、本研究では合成データ拡張を活用した新たなアプローチを提案する。この手法により、データセットの多様性と複雑性を向上させることを目指す。我々は、EFLの高度な拡張モデルであるUnitedSynT5を提示する。このモデルはT5に基づく生成器を用いて、追加の前提文・仮説文ペアを合成し、厳密なクリーニングプロセスを経て訓練データに統合する。これらの拡張された例は、EFLフレームワーク内で処理され、仮説にラベルを直接埋め込むことで一貫性を確保する。この拡張されたデータセット上でGTR-T5-XLモデルを学習した結果、SNLIデータセットで94.7%、E-SNLIデータセットで94.0%、MultiNLIデータセットで92.6%の精度を達成し、従来のSOTAモデルを上回る新たなベンチマークを樹立した。本研究は、合成データ拡張がNLIモデルの性能向上に有効である可能性を示しており、自然言語理解タスクにおけるさらなる進展に向けた道筋を提供するものである。