11日前

ブレイキングフリーディスプリターモデル:タスク固有のコンテキスト帰属付けは、事前学習済みLLMのファインチューニングを必要とせずに一般化性能の向上を約束する

Stepan Tytarenko, Mohammad Ruhul Amin
ブレイキングフリーディスプリターモデル:タスク固有のコンテキスト帰属付けは、事前学習済みLLMのファインチューニングを必要とせずに一般化性能の向上を約束する
要約

大規模な事前学習済み言語モデル(LLM)を特定のデータセット上で微調整(fine-tuning)することは、自然言語処理(NLP)分類タスクにおいて一般的な手法である。しかし、このアプローチはモデルの汎化能力の低下を引き起こすことが多く、課題となる。本論文では、タスク固有のコンセプト属性(context attribution)を活用することで、汎化能力を維持しつつ、下流タスクにおける性能を向上させるフレームワークを提案する。本研究では、任意のTransformerモデルからのテキスト表現に対して、タスク固有のコンセプト演算子を用いた線形変換を行うことで、潜在コンセプト空間への射影が実現され、これを本論文では「コンセプト属性」と呼ぶ。このコンセプト演算子は、新規の損失関数を用いた教師あり学習段階で最適化される。提案するフレームワークは、各タスク目的に対してテキスト表現のコンセプト属性を導入することで、識別関数の表現能力が向上し、分類タスク全体の性能改善につながることを示している。HateXplain、IMDBレビュー、Social Media Attributionsの3つのデータセットにおける実験結果から、提案モデルが優れた精度と汎化性能を達成していることが確認された。特に、HateXplainデータセットにおいて非微調整のBERTを用いた場合、精度は8%向上し、F1スコアは10%向上した。IMDBデータセットでは、最新の微調整済みXLNetよりも、精度およびF1スコアともに1%の性能向上が達成された。さらに、ドメイン外のクロスデータセット評価において、IMDBで微調整されたDistilBERTと本フレームワークを組み合わせることで、HateXplainデータセットにおけるF1スコアが7%向上した。YouTubeコメントを対象としたSocial Media Attributionsデータセットでは、F1メトリクスが5.2%向上した。本フレームワークはPyTorchを用いて実装され、GitHub上でオープンソースとして公開されている。

ブレイキングフリーディスプリターモデル:タスク固有のコンテキスト帰属付けは、事前学習済みLLMのファインチューニングを必要とせずに一般化性能の向上を約束する | 最新論文 | HyperAI超神経