Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

SemanticGen:语义空间中的视频生成

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划































SemanticGen:语义空间中的视频生成

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划






























LongVideoAgent:基于长视频的多Agent推理
GenEnv:LLM Agent 与环境模拟器之间的难度对齐协同进化
WorldWarp:基于异步视频扩散的3D几何传播
LoGoPlanner:基于定位的度量感知视觉几何导航策略
LLM能否评估学生困难?基于能力模拟的师生AI难度对齐在题目难度预测中的应用
QuCo-RAG:基于预训练语料库量化不确定性以实现动态检索增强生成
棱镜假说:通过统一自编码实现语义与像素表征的融合
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
Kascade:一种面向长上下文LLM推理的实用稀疏注意力方法
GLM-4.5:智能体、推理与编程(ARC)基础模型
GroundingME:通过多维评估揭示MLLMs中的视觉定位鸿沟
语义与重构同样重要:使表示编码器适用于文本到图像生成与编辑
4D-RGPT:通过感知蒸馏实现区域级4D理解
Seed-Prover 1.5:通过经验学习掌握本科水平定理证明
当推理遇见其法则
基于科学家对齐工作流的LLM科学通用智能探究
K2-V2:一个360-开放、推理增强的LLM
VenusBench-GD:面向多样化定位任务的综合性多平台GUI基准
MCIF:来自科学演讲的多模态跨语言指令遵循基准
NitroGen:面向通用游戏Agent的开源基础模型
H-神经元:关于LLM中与幻觉相关的神经元的存在性、影响及其起源
世界即你的画布:通过参考图像、轨迹与文本绘制可提示事件
炼金术师:通过元梯度数据选择解锁文本到图像模型训练的效率
深度任意全景图:一种全景深度估计的基础模型
生成式重聚焦:从单张图像实现灵活的失焦控制
StereoPilot:通过生成先验学习统一且高效的立体转换
下一代嵌入预测助力强大视觉学习器的构建
Agent AI:探索多模态交互的前沿
人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究
GenEval 2:应对文本到图像评估中的基准漂移问题
LongVideoAgent:基于长视频的多Agent推理
GenEnv:LLM Agent 与环境模拟器之间的难度对齐协同进化
WorldWarp:基于异步视频扩散的3D几何传播
LoGoPlanner:基于定位的度量感知视觉几何导航策略
LLM能否评估学生困难?基于能力模拟的师生AI难度对齐在题目难度预测中的应用
QuCo-RAG:基于预训练语料库量化不确定性以实现动态检索增强生成
棱镜假说:通过统一自编码实现语义与像素表征的融合
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
Kascade:一种面向长上下文LLM推理的实用稀疏注意力方法
GLM-4.5:智能体、推理与编程(ARC)基础模型
GroundingME:通过多维评估揭示MLLMs中的视觉定位鸿沟
语义与重构同样重要:使表示编码器适用于文本到图像生成与编辑
4D-RGPT:通过感知蒸馏实现区域级4D理解
Seed-Prover 1.5:通过经验学习掌握本科水平定理证明
当推理遇见其法则
基于科学家对齐工作流的LLM科学通用智能探究
K2-V2:一个360-开放、推理增强的LLM
VenusBench-GD:面向多样化定位任务的综合性多平台GUI基准
MCIF:来自科学演讲的多模态跨语言指令遵循基准
NitroGen:面向通用游戏Agent的开源基础模型
H-神经元:关于LLM中与幻觉相关的神经元的存在性、影响及其起源
世界即你的画布:通过参考图像、轨迹与文本绘制可提示事件
炼金术师:通过元梯度数据选择解锁文本到图像模型训练的效率
深度任意全景图:一种全景深度估计的基础模型
生成式重聚焦:从单张图像实现灵活的失焦控制
StereoPilot:通过生成先验学习统一且高效的立体转换
下一代嵌入预测助力强大视觉学习器的构建
Agent AI:探索多模态交互的前沿
人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究
GenEval 2:应对文本到图像评估中的基准漂移问题