
要約
事前学習された言語モデルは、隠れた言語的特徴を捉えるという独自の能力を実証している。しかし、多数の事前学習アプローチは単語レベルの学習目標に焦点を当てており、文レベルの目標はほとんど研究されていない。本論文では、ノイズに頑健な文表現を学習するために、複数の文レベルの増強戦略を用いる「対照的文表現学習(Contrastive LEArning for sentence Representation: CLEAR)」を提案する。これらの増強手法には、単語や語群の削除、並べ替え、置換が含まれる。さらに、多数の実験を通じて、対照学習が有効となる主な要因を検証した。その結果、事前学習段階における異なる文増強手法が、さまざまな下流タスクにおける性能向上に異なる影響を与えることが明らかになった。本手法は、SentEvalおよびGLUEベンチマークの両方において、既存の複数の手法を上回る性能を示した。