Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

Claudini: Autoresearch 发现适用于 LLMs 的最先进(State-of-the-Art)对抗攻击算法

AutoHarness:通过自动合成代码 Harness 来提升 LLM Agents 的性能































Claudini: Autoresearch 发现适用于 LLMs 的最先进(State-of-the-Art)对抗攻击算法

AutoHarness:通过自动合成代码 Harness 来提升 LLM Agents 的性能






























GameplayQA:用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架
为何自蒸馏(有时)会削弱 LLMs 的推理能力?
UI-Voyager:一种基于失败经验进行自我演进的 GUI Agent
T-MAP:基于轨迹感知的进化搜索对 LLM Agent 进行红队测试
CUA-Suite:面向计算机使用 Agent 的大规模人工标注视频演示数据集
EVA:面向端到端视频 Agent 的高效强化学习
Foveated Diffusion:高效的空间自适应图像与视频生成
Ego2Web:一种基于第一视角视频的 Web Agent 基准测试
从静态模板到动态运行时图:LLM Agent 工作流优化综述
SpecEyes:通过推测性感知与规划加速代理式多模态LLM
DA-Flow:基于 Diffusion 模型的退化感知光流估计
PEARL:个性化流式视频理解模型
WildWorld:面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集
MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染
PivotRL:低计算成本下的高精度 Agentic Post-Training
F4Splat:面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法
SpatialBoost:通过语言引导推理增强视觉表征
VideoDetective:通过外在查询与内在相关性进行线索挖掘以实现长视频理解
LongCat-Flash-Prover:通过智能体工具集成强化学习推进原生形式化推理
速度源于简约:一种用于快速音视频生成基础模型的单流架构
Omni-WorldBench:面向以交互为核心的世界模型综合评估
PrismAudio:面向视频到音频生成的分解式思维链与多维奖励机制
LeWorldModel:基于像素的稳定端到端联合嵌入预测架构
FlowScene:基于多模态图校正流的风格一致室内场景生成
LumosX:将任意身份与其属性关联以实现个性化视频生成
面向大语言模型的 Y Combinator:用 λ 演算解决长上下文退化问题
ProactiveBench:多模态大语言模型主动性基准测试
TerraScope:面向对地观测的像素级视觉推理
Astrolabe:为蒸馏自回归视频模型引导前向过程强化学习
HopChain:面向可泛化视觉 - 语言推理的多跳数据合成
GameplayQA:用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架
为何自蒸馏(有时)会削弱 LLMs 的推理能力?
UI-Voyager:一种基于失败经验进行自我演进的 GUI Agent
T-MAP:基于轨迹感知的进化搜索对 LLM Agent 进行红队测试
CUA-Suite:面向计算机使用 Agent 的大规模人工标注视频演示数据集
EVA:面向端到端视频 Agent 的高效强化学习
Foveated Diffusion:高效的空间自适应图像与视频生成
Ego2Web:一种基于第一视角视频的 Web Agent 基准测试
从静态模板到动态运行时图:LLM Agent 工作流优化综述
SpecEyes:通过推测性感知与规划加速代理式多模态LLM
DA-Flow:基于 Diffusion 模型的退化感知光流估计
PEARL:个性化流式视频理解模型
WildWorld:面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集
MinerU-Diffusion:通过 Diffusion 解码将文档 OCR 重新构想为逆渲染
PivotRL:低计算成本下的高精度 Agentic Post-Training
F4Splat:面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法
SpatialBoost:通过语言引导推理增强视觉表征
VideoDetective:通过外在查询与内在相关性进行线索挖掘以实现长视频理解
LongCat-Flash-Prover:通过智能体工具集成强化学习推进原生形式化推理
速度源于简约:一种用于快速音视频生成基础模型的单流架构
Omni-WorldBench:面向以交互为核心的世界模型综合评估
PrismAudio:面向视频到音频生成的分解式思维链与多维奖励机制
LeWorldModel:基于像素的稳定端到端联合嵌入预测架构
FlowScene:基于多模态图校正流的风格一致室内场景生成
LumosX:将任意身份与其属性关联以实现个性化视频生成
面向大语言模型的 Y Combinator:用 λ 演算解决长上下文退化问题
ProactiveBench:多模态大语言模型主动性基准测试
TerraScope:面向对地观测的像素级视觉推理
Astrolabe:为蒸馏自回归视频模型引导前向过程强化学习
HopChain:面向可泛化视觉 - 语言推理的多跳数据合成