
要約
本稿では、文の埋め込み表現の最先端技術を大幅に進展させる単純な対照学習フレームワーク「SimCSE」を提案する。まず、入力された文に対して自己予測を行う非教師ありアプローチを提示する。この手法では、標準的なドロップアウトのみをノイズとして用いる。この単純なアプローチは驚くほど優れた性能を発揮し、従来の教師あり手法と同等の結果を達成している。我々はドロップアウトが最小限のデータ拡張として機能していることを発見した。一方で、ドロップアウトを除去すると表現の崩壊(representation collapse)が生じることを確認した。次に、教師ありアプローチを提案する。このアプローチでは、自然言語推論(natural language inference: NLI)データセットから得られるペアを、対照学習フレームワークに組み込む。具体的には、「含意(entailment)」ペアをポジティブ例として、「矛盾(contradiction)」ペアをハードネガティブ例として用いる。SimCSEは標準的な意味的テキスト類似度(semantic textual similarity: STS)タスクにおいて評価された。BERT baseを用いた非教師ありモデルと教師ありモデルは、それぞれ平均76.3%および81.6%のスピアマン相関係数を達成し、従来の最良結果と比較して4.2%および2.2%の向上を示した。さらに、理論的および実証的に、対照学習の目的関数が事前学習済み埋め込みの非均一な空間(anisotropic space)をより均一な構造へ正則化し、教師信号が利用可能な場合にはポジティブペアの整合性をより高めることを示した。