Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

ReVSI: 重建视觉空间智能评估,以实现对VLM 3D推理的准确评估

从技能到人才:组织异质代理作为真实世界的公司































ReVSI: 重建视觉空间智能评估,以实现对VLM 3D推理的准确评估

从技能到人才:组织异质代理作为真实世界的公司






























World-R1: 强化三维约束以实现文生视频生成
基于语义进展函数的视频分析与生成
SmartPhotoCrafter:面向自动摄影图像编辑的统一推理、生成与优化框架
上下文永远不够长:针对大规模长文档集的结构化推理可扩展问答研究
AgentSearchBench:一种针对野外场景下 AI agent 搜索能力的基准测试
FlowAnchor:通过稳定编辑信号实现无反转视频编辑
从内部视角审视 LLM 安全性:利用内部表示检测有害内容
DiffNR:用于稀疏视图 3D 断层扫描重建的扩散增强神经表示优化
Agentic 世界建模:基础、能力、定律及其延伸
用于增强鲁棒性分布式预训练的解耦 DiLoCo 方法
EVENT TENSOR:一种用于编译动态 MEGAKERNEL 的统一抽象方式
见速与见缓:学习视频中的时间流转
面向长程任务的 LLM 决策与技能库 agents 协同演化研究
StyleID:一种用于风格无关的人脸身份识别的感知感知数据集与度量指标
UniT:迈向人类到人形机器人策略学习与世界建模的统一物理语言
WorldMark:一个用于交互式视频世界模型的统一基准测试套件
LLaTiSA:迈向从视觉感知到语义的难度分层时间序列推理
图像生成器是通用视觉学习者
LongCat-Next:将模态词汇化为离散 tokens
FIPO:通过 Future-KL 影响下的 Policy Optimization 激发深度推理能力
通过强化学习中组级自然语言反馈进行 Bootstrapping 探索
SocialOmni:评估 Omni Models 在视听社交交互中的表现
DeepSeek-V4:迈向高效的 Million-Token 上下文智能
从生成式视角探索空间智能
DeVI:通过合成视频模仿实现基于物理的灵巧人机交互
大模型时代的奖励作弊(Reward Hacking):机制、涌现性失调与挑战
DR-Venus:仅需 1 万条开源数据,迈向前沿边缘规模深度研究 agent
近未来策略优化
LLaDA2.0-Uni:通过扩散大语言模型统一多模态理解与生成
BioInstruct:面向生物医学自然语言处理的 Large Language Models 指令微调研究
World-R1: 强化三维约束以实现文生视频生成
基于语义进展函数的视频分析与生成
SmartPhotoCrafter:面向自动摄影图像编辑的统一推理、生成与优化框架
上下文永远不够长:针对大规模长文档集的结构化推理可扩展问答研究
AgentSearchBench:一种针对野外场景下 AI agent 搜索能力的基准测试
FlowAnchor:通过稳定编辑信号实现无反转视频编辑
从内部视角审视 LLM 安全性:利用内部表示检测有害内容
DiffNR:用于稀疏视图 3D 断层扫描重建的扩散增强神经表示优化
Agentic 世界建模:基础、能力、定律及其延伸
用于增强鲁棒性分布式预训练的解耦 DiLoCo 方法
EVENT TENSOR:一种用于编译动态 MEGAKERNEL 的统一抽象方式
见速与见缓:学习视频中的时间流转
面向长程任务的 LLM 决策与技能库 agents 协同演化研究
StyleID:一种用于风格无关的人脸身份识别的感知感知数据集与度量指标
UniT:迈向人类到人形机器人策略学习与世界建模的统一物理语言
WorldMark:一个用于交互式视频世界模型的统一基准测试套件
LLaTiSA:迈向从视觉感知到语义的难度分层时间序列推理
图像生成器是通用视觉学习者
LongCat-Next:将模态词汇化为离散 tokens
FIPO:通过 Future-KL 影响下的 Policy Optimization 激发深度推理能力
通过强化学习中组级自然语言反馈进行 Bootstrapping 探索
SocialOmni:评估 Omni Models 在视听社交交互中的表现
DeepSeek-V4:迈向高效的 Million-Token 上下文智能
从生成式视角探索空间智能
DeVI:通过合成视频模仿实现基于物理的灵巧人机交互
大模型时代的奖励作弊(Reward Hacking):机制、涌现性失调与挑战
DR-Venus:仅需 1 万条开源数据,迈向前沿边缘规模深度研究 agent
近未来策略优化
LLaDA2.0-Uni:通过扩散大语言模型统一多模态理解与生成
BioInstruct:面向生物医学自然语言处理的 Large Language Models 指令微调研究