11日前

Trans-Encoder:自己および相互蒸留を用いた教師なし文対モデリング

Fangyu Liu, Yunlong Jiao, Jordan Massiah, Emine Yilmaz, Serhii Havrylov
Trans-Encoder:自己および相互蒸留を用いた教師なし文対モデリング
要約

自然言語処理(NLP)において、2つのシーケンス間の対比較(例:文類似度評価や同義表現同定)を扱うタスクは多数存在する。このような文ペアタスクに対しては、主に2つの定式化が用いられている:バイエンコーダーとクロスエンコーダーである。バイエンコーダーは固定次元の文表現を生成し、計算効率が高いため、実用的な利点を持つが、通常はクロスエンコーダーに比べて性能が劣る。一方、クロスエンコーダーはアテンションヘッドを活用して文間の相互作用を効果的に捉えることができ、高い性能を発揮するが、タスク固有の微調整(fine-tuning)を必要とし、計算コストも高い。本論文では、完全に教師なしの文表現モデルである「Trans-Encoder」を提案する。このモデルは、バイエンコーダーとクロスエンコーダーの学習枠組みを反復的かつ統合的なフレームワークに統合し、両方のエンコーダーを同時に改善する。具体的には、事前学習済み言語モデル(PLM)を基盤とし、まずそれを教師なしのバイエンコーダーに変換した後、バイエンコーダーとクロスエンコーダーの定式化を交互に実行する。各反復において、一方の定式化が擬似ラベル(pseudo-labels)を生成し、それをもう一方の定式化の学習信号として利用する。さらに、複数のPLM上でこの自己蒸留(self-distillation)アプローチを並列で実行し、それらの擬似ラベルの平均値を用いて相互蒸留(mutual-distillation)を行う拡張手法を提案する。Trans-Encoderは、現時点で知られている限り、初めて完全に教師なしのクロスエンコーダーを実現したものであり、文類似度タスクにおいても最先端の教師なしバイエンコーダーを達成している。Trans-Encoderのバイエンコーダーおよびクロスエンコーダーの両方の定式化は、最近提案された最先端の教師なし文表現モデル(Mirror-BERTやSimCSEなど)を、文類似度ベンチマークにおいて最大5%の性能向上で上回っている。

Trans-Encoder:自己および相互蒸留を用いた教師なし文対モデリング | 最新論文 | HyperAI超神経