Command Palette
Search for a command to run...

要約
近年のAIハードウェア、特にNVIDIAのBlackwellアーキテクチャは、大規模言語モデル(LLM)における広範な活性化アウトライアを扱うために、低精度浮動小数点(FP)形式の採用が進んでいる。この産業界の動向にもかかわらず、異なる粒度におけるFP形式と整数(INT)形式の量子化を統一的に比較した研究はこれまで存在せず、アルゴリズムとハードウェアの共同設計には明確な指針が欠けていた。本論文は、このギャップを埋めるために、FP形式とINT形式の間のトレードオフを体系的に調査する。我々は、重要な性能のクロスオーバーを明らかにした。粗粒度の量子化においてはFP形式が優れる一方で、細粒度(ブロック単位)での比較はより複雑であることが判明した。包括的な比較により、代表的な8ビット細粒度形式(例:ブロックサイズ32のMX)において、MXINT8がそのFP版よりもアルゴリズムの精度およびハードウェア効率の両面で優れていることが示された。一方、4ビット形式では、FP形式(例:MXFP4、NVFP4)がしばしば精度面で優位性を示すが、本研究では、ハダマール回転などのアウトライア低減技術を適用することで、NVINT4がNVFP4を上回ることを示した。さらに、細粒度低ビットINT学習における勾配バイアスを解消する対称的クリッピング手法を提案し、MXINT8学習においてほぼ損失のない性能を実現可能とした。これらの発見は、現在のハードウェア設計の方向性に疑問を呈し、汎用的なFPアプローチが最適ではないことを示しており、特にMXINT8を含む細粒度INT形式が、将来のAIアクセラレータにおいて精度、消費電力、効率のバランスをより良く実現する可能性を示唆している。