3ヶ月前
潜在空間における幻影:大規模言語モデルおよび視覚モデル向け
Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

要約
視覚的インストラクションチューニングの成功は、大規模言語・視覚モデル(LLVMs)の開発を加速させた。インストラクションチューニング済みの大規模言語モデル(LLMs)のスケーリング則に従い、LLVMsのモデルサイズはさらに拡大し、26B、34B、さらには80Bパラメータにまで達している。このモデルサイズの増大は顕著な性能向上をもたらした一方で、トレーニングおよび推論の両面において大幅なハードウェアリソースを要するようになっている。その結果、より大きなモデルと同等の性能を実現しつつ、モデルサイズを小さく抑える効率的なLLVMに対する強い需要が生じている。この課題に応えるため、本研究では0.5B、1.8B、3.8B、7Bパラメータという小規模なモデルサイズを持つ新たな効率的LLVMファミリー「Phantom」を提案する。Phantomは限られた構造内でも学習能力を著しく向上させる。多頭自己注意機構(MHSA)において一時的に潜在空間の隠れ次元を拡大することで、物理的なモデルサイズを著しく増加させることなく、潜在空間上でより豊富な視覚・言語知識を捉え、理解する能力を強化している。その利点を最大限に引き出すために、自己回帰的教師あり微調整(SFT)と、直接的好み最適化(DPO)に類する概念を組み合わせた「Phantom最適化(PO)」を導入し、正解を適切に追随しつつ、誤りや曖昧な回答を効果的に排除する。実験の結果、Phantomは多数のより大きなオープンソースおよびクローズドソースのLLVMを上回る性能を発揮し、効率的なLLVMの分野における先進的なソリューションとして位置づけられる。