Command Palette
Search for a command to run...
Vladislav Pedashenko Laida Kushnareva Yana Khassan Nibal Eduard Tulchinskii Kristian Kuznetsov Vladislav Zharchinskii Yury Maximov Irina Piontkovskaya

摘要
内在维度(Intrinsic Dimension, ID)是现代大型语言模型(LLM)分析中的重要工具,为训练动力学、扩展行为(scaling behavior)及数据集结构的研究提供了重要参考,然而其文本层面的决定因素仍鲜有探索。我们进行了首项全面研究,通过交叉编码器分析、语言学特征和稀疏自编码器(Sparse Autoencoders, SAEs),将 ID 建立在可解释的文本属性之上。在本研究中,我们确立了三个关键发现:首先,ID 与基于熵的指标是互补的。 在控制文本长度后,两者体现为不相关,ID 捕捉的是与预测质量正交(orthogonal)的几何复杂性。其次,ID 表现出显著的体裁分层现象。 在所有测试模型中,科学文本显示出低 ID(约 8),百科全书式内容为中等 ID(约 9),而创意/观点类写作则呈现高 ID(约 10.5)。这揭示了现代大型语言模型认为科学文本在“表征上较为简单”,而虚构类文本则需要额外的自由度。第三,利用 SAEs,我们识别出了对 ID 具有影响的因果特征。 科学信号(如正式语气、报告模板、统计数据)会降低 ID;而人性化信号(如个性化、情感、叙事)则会增加 ID。引导实验(Steering experiments)证实了这些效应具有因果性。因此,对于当代模型而言,科学写作显得相对“容易”,而虚构、观点和情感内容则增加了表征自由度。我们的多层面分析为正确使用 ID 以及合理解读基于 ID 的研究结果提供了实践指导。