7日前

TSDAE:自己教師付き文埋め込み学習のためのTransformerベースの逐次ノイズ除去オートエンコーダ

Kexin Wang, Nils Reimers, Iryna Gurevych
TSDAE:自己教師付き文埋め込み学習のためのTransformerベースの逐次ノイズ除去オートエンコーダ
要約

文の埋め込み(sentence embeddings)を学習する際には、多くのラベル付きデータが必要となることが一般的である。しかし、大多数のタスクやドメインにおいては、ラベル付きデータはほとんど存在せず、その作成には高いコストがかかる。本研究では、事前学習済みTransformerと順序付きノイズ除去オートエンコーダ(Sequential Denoising Auto-Encoder, TSDAE)を基盤とする、最新の非教師あり手法を提案する。この手法は、従来のアプローチを最大6.4ポイント上回り、ドメイン内教師あり手法の性能の最大93.1%まで達成可能である。さらに、TSDAEが文の埋め込みにおける強力なドメイン適応および事前学習手法であることを示し、マスク言語モデル(Masked Language Model)などの他のアプローチを著しく上回ることを確認した。これまでの研究における重要な限界は、評価範囲が狭い点にある。多くの研究は、ドメイン知識を要しない単一のタスク、すなわち意味的テキスト類似性(Semantic Textual Similarity, STS)タスクのみを評価対象としている。そのため、これらの手法が他のドメインやタスクに一般化可能かどうかは不明である。本研究では、このギャップを埋め、異種のドメインから得られた4つの異なるデータセットを用いて、TSDAEおよび他の最近の手法を包括的に評価した。

TSDAE:自己教師付き文埋め込み学習のためのTransformerベースの逐次ノイズ除去オートエンコーダ | 最新論文 | HyperAI超神経