17日前

パラメータを一つも残さない:知識蒸留とモデルサイズがゼロショット検索に与える影響

Guilherme Moraes Rosa, Luiz Bonifacio, Vitor Jeronymo, Hugo Abonizio, Marzieh Fadaee, Roberto Lotufo, Rodrigo Nogueira
パラメータを一つも残さない:知識蒸留とモデルサイズがゼロショット検索に与える影響
要約

最近の研究では、小型の蒸留(distilled)言語モデルが、規模が何桁も大きく、処理速度も遅いモデルと比較して、幅広い情報検索タスクにおいて強力な競合者であることが示されている。このため、遅延制約の観点から、実世界の検索アプリケーションへの導入において、蒸留モデルと密接(dense)モデルが標準的な選択肢となっている。本研究では、モデルのパラメータ数と早期のクエリ-ドキュメント相互作用が、検索モデルの一般化能力に重要な役割を果たすことを示すことで、この慣習に疑問を呈する。実験の結果、モデルサイズを拡大しても、ドメイン内テストセットではわずかな向上しか得られない一方で、微調整時に一度も見られなかった新しいドメインでは顕著な性能向上が得られることが明らかになった。さらに、同程度のサイズを持つ密接モデルと比較して、再ランク(reranker)モデルが複数のタスクで大きく優れた性能を発揮することを示した。本研究で構築した最大規模の再ランカーは、Benchmark-IR(BEIR)の18データセットのうち12個で最先端(state-of-the-art)の性能を達成し、従来の最先端モデルよりも平均3ポイントの向上を実現した。最後に、ドメイン内での効果性はゼロショット(zero-shot)性能の良い指標ではないことを確認した。コードは以下のGitHubリポジトリで公開されている:https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git

パラメータを一つも残さない:知識蒸留とモデルサイズがゼロショット検索に与える影響 | 最新論文 | HyperAI超神経