Command Palette
Search for a command to run...
あなたのアンエンベディング行列は実はテキスト埋め込みのための特徴レンズである
あなたのアンエンベディング行列は実はテキスト埋め込みのための特徴レンズである
Songhao Wu Zhongxin Chen Yuxuan Liu Heng Cui Cong Li Rui Yan
概要
大規模言語モデルは、幅広い下流タスクにおいて印象的なゼロショット能力を示している。しかし、それらはオフ・ザ・シェルフの埋め込みモデルとして機能することに苦戦しており、大規模なテキスト埋め込みベンチマークにおいて最適でない性能にとどまっている。本論文では、この欠陥の背後にある潜在的な原因を特定する。私たちの動機は、予期せぬ観察結果に由来する。すなわち、テキスト埋め込みは語彙空間に射影された際、頻繁に出現するが情報量の少ないtokensと整列する傾向がある。私たちは、この高頻度tokensの過度な表現が、モデルが細かな意味を捉える能力を抑制すると主張する。これに対処するため、LLMsから直接得られたテキスト埋め込みを精製するために設計された単純な線形変換であるEmbedFilterを導入する。具体的には、LLMs内のアンアンベディング行列が、これらの頻繁なtokensを埋め込み空間に積極的に書き込む潜在空間を符号化していることを明らかにする。この部分空間をフィルタリングすることで、EmbedFilterは高頻度tokensの影響を抑制し、それによって意味表現を強化する。魅力的な副産物として、これにより内在的な次元削減が可能となり、精製された埋め込みの品質を完全に維持しつつ、インデックスストレージを削減し検索を高速化する。複数のLLMバックボーンにわたる実験により、EmbedFilterを備えたLLMsは、埋め込み次元を大幅に削減しても、優れたゼロショット下流性能を達成することが示された。私たちの発見が、LLMベースの表現のメカニズムに関するより深い洞察を提供し、テキスト埋め込みの学習を改善するためのより原理的な設計にインスピレーションを与えることを願っている。本コードはhttps://github.com/CentreChen/EmbFilterで公開されている。