AIの効率性をモデル中心からデータ中心の圧縮へとシフトさせる
Liu, Xuyang ; Wen, Zichen ; Wang, Shaobo ; Chen, Junjie ; Tao, Zhishan ; Wang, Yubo ; Jin, Xiangqi ; Zou, Chang ; Wang, Yiyu ; Liao, Chenfei ; Zheng, Xu ; Chen, Honggang ; Li, Weijia ; Hu, Xuming ; He, Conghui ; Zhang, Linfeng
公開日: 5/27/2025

要約
大規模言語モデル(LLMs)および多モーダル大規模言語モデル(MLLMs)の急速な進歩は、歴史的に、パラメータ数を数百万から数百億に増やすことで性能向上を推進するモデル中心のスケーリングに依存してきました。しかし、モデルサイズのハードウェア限界に近づくにつれて、計算上の主要なボトルネックが根本的に変化し、超長文コンテキスト、高解像度画像、延長ビデオなどによる長いトークン列に対する自己注意の二次コストに移行しています。本ポジションペーパーでは、\textbf{効率的なAIに関する研究の焦点が、モデル中心の圧縮からデータ中心の圧縮へと移っている}ことを主張します。トークン圧縮を新たなフロンティアとして位置付けます。これは、モデル訓練や推論時にトークン数を削減することでAI効率を改善します。包括的な分析を通じて、まず様々な領域における長コンテキストAIの最近の発展を検討し、既存のモデル効率化戦略の一貫した数学的枠組みを確立します。これにより、トークン圧縮が長コンテキストオーバーヘッドに対処するための重要なパラダイムシフトである理由を示します。その後、トークン圧縮の研究状況を体系的にレビューし、その基本的な利点を分析するとともに、多様なシナリオでの魅力的な優位性を特定します。さらに、トークン圧縮研究における現在の課題について詳細に分析し、有望な将来方向性を概説します。最終的には、本研究はAI効率に関する新鮮な視点を提供し、既存の研究を集約し、コンテキスト長さの増加がAIコミュニティの進歩に及ぼす課題への対応を促進することを目指しています。