17日前

自然言語推論データセットにおける誤った相関を軽減するためのデータ生成

Yuxiang Wu, Matt Gardner, Pontus Stenetorp, Pradeep Dasigi
自然言語推論データセットにおける誤った相関を軽減するためのデータ生成
要約

自然言語処理モデルは、学習データセット内のタスクに依存しない特徴とラベルの偶然的相関(スパurious correlation)を活用することで、訓練データの分布内では良好な性能を発揮するが、異なるタスク分布への一般化能力に欠けることがよくある。本研究では、この問題に取り組むため、元のデータセットからバイアスのないバージョンを生成し、それを単に既存のオフ・ザ・シェルフ(off-the-shelf)モデルの学習データに置き換えることで、バイアスのないモデルを訓練するアプローチを提案する。本手法は以下の2つの要素から構成される:1)高品質でラベル一貫性を保ったデータサンプルを生成するための訓練データ生成手法;2)z統計量を用いて偶然的相関に寄与するデータポイントを検出し、除去するフィルタリング機構。本研究ではSNLIおよびMNLIデータセットのバイアス除去版を生成し、広範なバイアス除去済み・分布外(out-of-distribution)・攻撃的(adversarial)なテストセット上で評価を行った。その結果、提案手法で生成したバイアス除去データセット上で学習したモデルは、すべての設定において元のデータセットで学習したモデルよりも優れた一般化性能を示した。多数のデータセットにおいて、本手法は従来の最先端のバイアス除去戦略と同等または上回る性能を達成し、さらに直交的な手法である「エキスパートの積(product-of-experts)」と組み合わせることで、SNLI-hardおよびMNLI-hardの既存最良結果を上回る性能を実現した。