11日前

相互情報量最大化を用いた教師なし文埋め込み手法

Yan Zhang, Ruidan He, Zuozhu Liu, Kwan Hui Lim, Lidong Bing

要約

BERTは、クラスタリングや意味的検索などの文対タスクにおいて非効率であり、組み合わせ的に多くの文対を評価する必要があるため、非常に時間がかかる。これを解決するために、Sentence BERT（SBERT）は単一の文に対する意味的に有意義な表現を学習することで、類似度比較を容易にすることを目指した。しかし、SBERTは高品質なラベル付き文対を含むコーパス上で訓練されるため、ラベル付きデータが極めて少ないタスクへの適用が制限される。本論文では、BERTの上に軽量な拡張を施し、相互情報量最大化に基づく新しい自己教師学習目的関数を提案することで、ラベルなしの環境下でも意味的な文埋め込みを獲得する手法を実現した。SBERTとは異なり、本手法はラベル付きデータの有無に依存しないため、異なるドメイン固有のコーパスにも適用可能である。実験結果から、提案手法は一般的な意味的テキスト類似度（STS）タスクおよび下流の教師ありタスクにおいて、他の無教師文埋め込みベースラインを顕著に上回ることが示された。また、ドメイン内ラベル付きデータが存在しない設定においてもSBERTを上回り、さまざまなタスクで教師あり手法と競合する性能を達成した。