HyperAIHyperAI

Command Palette

Search for a command to run...

相互情報量最大化を用いた教師なし文埋め込み手法

Yan Zhang Ruidan He Zuozhu Liu Kwan Hui Lim Lidong Bing

概要

BERTは、クラスタリングや意味的検索などの文対タスクにおいて非効率であり、組み合わせ的に多くの文対を評価する必要があるため、非常に時間がかかる。これを解決するために、Sentence BERT(SBERT)は単一の文に対する意味的に有意義な表現を学習することで、類似度比較を容易にすることを目指した。しかし、SBERTは高品質なラベル付き文対を含むコーパス上で訓練されるため、ラベル付きデータが極めて少ないタスクへの適用が制限される。本論文では、BERTの上に軽量な拡張を施し、相互情報量最大化に基づく新しい自己教師学習目的関数を提案することで、ラベルなしの環境下でも意味的な文埋め込みを獲得する手法を実現した。SBERTとは異なり、本手法はラベル付きデータの有無に依存しないため、異なるドメイン固有のコーパスにも適用可能である。実験結果から、提案手法は一般的な意味的テキスト類似度(STS)タスクおよび下流の教師ありタスクにおいて、他の無教師文埋め込みベースラインを顕著に上回ることが示された。また、ドメイン内ラベル付きデータが存在しない設定においてもSBERTを上回り、さまざまなタスクで教師あり手法と競合する性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています