Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

通过渐进一致性蒸馏实现高效的多模态大型语言模型

Apriel-1.5-15b-Thinker































通过渐进一致性蒸馏实现高效的多模态大型语言模型

Apriel-1.5-15b-Thinker






























StockBench:LLM Agent 能否在现实市场中盈利地交易股票?
交互式训练:反馈驱动的神经网络优化
StealthAttack:通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒
ExGRPO:从经验中学习推理
Self-Forcing++:迈向分钟级高质量视频生成
LongCodeZip:为Code LLM压缩长上下文
PIPer:通过在线强化学习实现设备端环境配置
多领域测试时扩展的奖励模型再思考
背包强化学习:通过优化预算分配解锁LLM的探索能力
GEM:面向智能体LLM的健身房
VLA-RFT:基于世界模拟器中验证奖励的视觉-语言-动作强化微调
DeepSearch:通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈
OceanGym:水下具身Agent的基准环境
TruthRL:通过强化学习激励LLM说真话
赢得剪枝赌局:一种面向高效监督微调的联合样本与token剪枝统一方法
龙之幼崽:Transformer与大脑模型之间的缺失环节
Vision-Zero:通过策略性游戏化自对弈实现可扩展的VLM自我提升
MCPMark:用于压力测试现实且全面的MCP使用的基准
可验证奖励下的LLM推理仅需随机策略评估
使用ToolUniverse实现AI科学家的民主化
推理何时才重要?一项关于推理对模型性能贡献的受控研究
多人博弈纳什偏好优化
StableToken:一种抗噪声的语义语音Tokenize,用于增强语音LLM的鲁棒性
SLA:通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破
SimpleFold:蛋白质折叠比你想象的更简单
POINTS-Reader:面向文档转换的视觉-语言模型蒸馏-free适配
可泛化的几何图像描述生成
基于强化学习的语言模型规划:理论视角下的优势与陷阱
语言模型Agent的赋能估计
语言模型可以在没有标量奖励的情况下从口头反馈中学习
StockBench:LLM Agent 能否在现实市场中盈利地交易股票?
交互式训练:反馈驱动的神经网络优化
StealthAttack:通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒
ExGRPO:从经验中学习推理
Self-Forcing++:迈向分钟级高质量视频生成
LongCodeZip:为Code LLM压缩长上下文
PIPer:通过在线强化学习实现设备端环境配置
多领域测试时扩展的奖励模型再思考
背包强化学习:通过优化预算分配解锁LLM的探索能力
GEM:面向智能体LLM的健身房
VLA-RFT:基于世界模拟器中验证奖励的视觉-语言-动作强化微调
DeepSearch:通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈
OceanGym:水下具身Agent的基准环境
TruthRL:通过强化学习激励LLM说真话
赢得剪枝赌局:一种面向高效监督微调的联合样本与token剪枝统一方法
龙之幼崽:Transformer与大脑模型之间的缺失环节
Vision-Zero:通过策略性游戏化自对弈实现可扩展的VLM自我提升
MCPMark:用于压力测试现实且全面的MCP使用的基准
可验证奖励下的LLM推理仅需随机策略评估
使用ToolUniverse实现AI科学家的民主化
推理何时才重要?一项关于推理对模型性能贡献的受控研究
多人博弈纳什偏好优化
StableToken:一种抗噪声的语义语音Tokenize,用于增强语音LLM的鲁棒性
SLA:通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破
SimpleFold:蛋白质折叠比你想象的更简单
POINTS-Reader:面向文档转换的视觉-语言模型蒸馏-free适配
可泛化的几何图像描述生成
基于强化学习的语言模型规划:理论视角下的优势与陷阱
语言模型Agent的赋能估计
语言模型可以在没有标量奖励的情况下从口头反馈中学习