HyperAI超神经

Sparse Embedding モデルのファインチューニングと活用：Sentence Transformers ver.5 Sentence Transformers v5では、スパース埋め込みモデルのファインチューニングが大幅に改善されました。この記事では、具体的な手順を示しつつ、スパースエンコーダーの特徴、用途、およびトレーニング手法を解説します。スパース埋め込みモデルとは？一般的に「埋め込みモデル」は、通常テキストデータをベクトル表現（埋め込み）に変換します。これらの埋め込みには、入力の意味をキャプチャする情報が含まれています。密集型埋め込みモデル（デンド型）では、通常384〜1024次元の低次元ベクトルが生成され、ほとんどの値が非ゼロです。一方、スパース埋め込みモデルは30,000次元以上的の高次元ベクトルを生成し、ほとんどの値がゼロです。各アクティブラベルは特定のトークンに対応し、解釈可能性が高く、数学操作が可能となります。クエリ/ドキュメント拡張スパース埋め込みモデルの一環として、クエリやドキュメントの自動拡張が行われます。例えば、「The weather is lovely today」という文は、"beautiful", "cool", "pretty", "nice" などの関連詞が自動的に追加されます。「It's so sunny outside！」は「weather」, 「summer」, 「sun」などの関連詞が追加されます。この拡張により、同義語だけでなく、ミススペルや語彙ミスマッチ問題にも対応できるようになります。ただし、この機能にはリスクもあります。例えば、「What is the weather on Tuesday?」という問いは、「Monday」, 「Wednesday」などの不要な関連語を追加してしまう可能性があります。スパース埋め込みモデルのメリットスパース埋め込みモデルは、伝統的な文字ベース手法（BM25など）と密集型埋め込みモデルの間に位置し、以下の利点があります：効率性：スパース表現はストレージと検索の効率がよい。解釈可能性：各次元が具体的なトークンに対応しているため、何が重要かを理解しやすい。精度：同義語や関連表現を処理でき、検索品質が向上する。ファインチューニングの理由デフォルトのスパース埋め込みモデルは、ドメインや言語に特化していません。例えば、"grocery" に関連する単語を "supermarket", "food", "market" と認識できますが、「cephalalgia」（頭痛）を "headache" と認識しないことがあります。ファインチューニングを通じて、モデルは特定のドメインや言語の知識を学び、より適切な拡張を学習できます。トレーニングのコンポーネント Sentence Transformersのスパースエンコーダーのトレーニングには以下のコンポーネントが必要です：モデル：トレーニング或いはファインチューニングを行うモデル。データセット：学習と評価に使用するデータ。損失関数：モデルの性能を測定し、最適化をガイドします。トレーニングアーギュメント：トレーニングのパフォーマンスや追跡/デバッグに影響を与えるパラメータ。評価者：学習前、中、後にモデルのパフォーマンスを評価するツール。トレーナー：上記のすべてのコンポーネントを束ねてトレーニングを行います。スパースエンコーダーのアーキテクチャ SPLADE MLMTransformer：事前学習済みのマスク言語モデルを利用します（BERT, RoBERTa, DistilBERT等）。 SpladePooling：MLMHeadの出力をプーリングして、単語ベクトルと同じサイズのスパース埋め込みを生成します。 SPLADE Inference-free クエリ部分はSparseStaticEmbeddingモジュールを使用し、事前計算されたスコアが返されます。ドキュメント部分はMLMTransformerとSpladePoolingを使用します。検索アプリケーションで、クエリの遅延時間を最小限に抑えるために特に有効です。 CSR（Contrastive Sparse Representation）密集型Sentence Transformerモデルの上にSparseAutoEncoderモジュールを追加します。スパース埋め込みの次元数が語彙の数と一致しないため、直接的な解釈が難しくなりますが、密接な意味を持つテキストのペアを扱う上で非常に効果的です。例：SPLADE Inference-free モデルのファインチューニングモデルの準備： ```python from sentence_transformers import SparseEncoder, models mlm_transformer = models.MLMTransformer("distilbert-base-uncased", tokenizer_args={"model_max_length": 512}) splade_pooling = models.SpladePooling(pooling_strategy="max", word_embedding_dimension=(mlm_transformer.get_sentence_embedding_dimension())) router = models.Router.for_query_document(query_modules=[models.SparseStaticEmbedding(tokenizer=mlm_transformer.tokenizer, frozen=False)], document_modules=[mlm_transformer, splade_pooling]) model = SparseEncoder(modules=[router]) ``` データセットの準備： python from datasets import load_dataset full_dataset = load_dataset("sentence-transformers/natural-questions", split="train").select(range(100_000)) dataset_dict = full_dataset.train_test_split(test_size=1_000, seed=12) train_dataset = dataset_dict["train"] eval_dataset = dataset_dict["test"] 損失関数の設定： python from sentence_transformers.sparse_encoder.losses import SparseMultipleNegativesRankingLoss, SpladeLoss loss = SpladeLoss(model=model, loss=SparseMultipleNegativesRankingLoss(model=model), query_regularizer_weight=0, document_regularizer_weight=3e-3) トレーニング引数の設定： python from sentence_transformers import SparseEncoderTrainingArguments args = SparseEncoderTrainingArguments(output_dir="models/my_model", num_train_epochs=1, per_device_train_batch_size=16, learning_rate_mapping={r"SparseStaticEmbedding\.weight": 1e-3}, eval_strategy="steps", eval_steps=1000) 評価者（オプション）： python from sentence_transformers.sparse_encoder.evaluation import SparseNanoBEIREvaluator dev_evaluator = SparseNanoBEIREvaluator(dataset_names=["msmarco", "nfcorpus", "nq"], batch_size=16) トレーナーの作成とトレーニング開始： python from sentence_transformers.sparse_encoder.trainer import SparseEncoderTrainer trainer = SparseEncoderTrainer(model=model, args=args, train_dataset=train_dataset, eval_dataset=eval_dataset, loss=loss, evaluator=dev_evaluator) trainer.train() モデルの保存と評価： python model.save_pretrained("models/my_model/final") dev_evaluator(model) 評価リザルト NanoMSMARCOデータセットでの評価結果は以下の通りです： - ** Sparse Only: NDCG@10=52.41, MRR@10=43.06 - Dense Only: NDCG@10=55.40, MRR@10=47.96 - Hybrid (Sparse + Dense): NDCG@10=66.31, MRR@10=59.45 - Sparse + Reranker**: NDCG@10=66.28, MRR@10=59.43 これらの結果から、スパースと密集型埋め込みを組み合わせるハイブリッド手法が最も効果的であることが分かります。また、リランキングを適用することで、更なるパフォーマンスの向上が期待できます。 Qdrant との統合 Qdrantは、スパースベクトルのストアや検索に優れたサポートを提供します。以下はQdrantを使用したスパースベクトル検索の例： ```python import time from datasets import load_dataset from sentence_transformers import SparseEncoder from sentence_transformers.sparse_encoder.search_engines import semantic_search_qdrant 1. 100Kの答えがあるnatural-questionsデータセットを読み込む dataset = load_dataset("sentence-transformers/natural-questions", split="train") num_docs = 10_000 corpus = dataset["answer"][:num_docs] 2. クエリを用意する queries = dataset["query"][:2] 3. モデルを読み込む sparse_model = SparseEncoder("naver/splade-cocondenser-ensembledistil") 4. コーパスをエンコードする corpus_embeddings = sparse_model.encode_document(corpus, convert_to_sparse_tensor=True, batch_size=16, show_progress_bar=True) 5. クエリをエンコードする while True: start_time = time.time() query_embeddings = sparse_model.encode_query(queries, convert_to_sparse_tensor=True) print(f"Encoding time: {time.time() - start_time:.6f} seconds") # 6. セマンチック検索を行う results, search_time, corpus_index = semantic_search_qdrant(query_embeddings, corpus_index=corpus_index, corpus_embeddings=corpus_embeddings if corpus_index is None else None, top_k=5, output_index=True) # 7. 結果を表示する print(f"Search time: {search_time:.6f} seconds") for query, result in zip(queries, results): print(f"Query: {query}") for entry in result: print(f"(Score: {entry['score']:.4f}) {corpus[entry['corpus_id']]}, corpus_id: {entry['corpus_id']}") print("") # 8. 追加のクエリの入力を待つ queries = [input("Please enter a question: ")] ``` 業界関係者のコメント「スパース埋め込みモデルは、特にハイブリッド检索やリランキングシナリオにおいて効果を発揮しています。Qdrantの統合により、高速かつ効率的な検索が可能となりました。」 — Hugging Face の開発者これらの手法はSentence Transformersの新たなバージョンではさらに進化し、多様な用途に适用できるようになりました。Sentence Transformersの詳細については、公式ドキュメントを参照してください。

Related Links