Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

DualSG:一种双流显式语义引导的多变量时间序列预测框架

当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述































DualSG:一种双流显式语义引导的多变量时间序列预测框架

当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述






























SmallThinker:一个为本地部署原生训练的高效大型语言模型家族
重建4D空间智能:一项综述
Rep-MTL:释放表示层任务显著性在多任务学习中的潜力
ARC-Hunyuan-Video-7B:现实世界短视频的结构化视频理解
Agent 强化策略优化
SciToolAgent:一个基于知识图谱的科学Agent,用于多工具集成
规范自校正:通过测试时优化缓解上下文奖励黑客行为
PRIX:从原始图像中学习规划用于端到端自动驾驶
与人工智能聊天:实时视频通信从人类到人工智能的意外转变
MMBench-GUI:面向GUI代理的分层多平台评估框架
深度研究者与测试时扩散
LLM量化几何:GPTQ作为Babai的最近平面算法
MedIQA:一种可扩展的基于提示的医学图像质量评估基础模型
OS-MAP: 计算机使用代理在广度和深度上能走多远?
分层预算策略优化用于自适应推理
《电影导演:面向短片生成》
LAPO:通过长度自适应策略优化内化推理效率
MUR:基于动量不确定性的大语言模型推理
NABLA:邻域自适应块级注意力
组序列策略优化
olmOCR:利用视觉语言模型解锁PDF中的数万亿个Token
SafeWork-R1: 在AI-45法则下的安全与智能协同进化
解耦大语言模型中的知识与推理:基于认知双系统理论的探索
Re:Form -- 在LLMs中使用强化学习减少人类先验知识的可扩展形式化软件验证:关于Dafny的初步研究
RAVine:现实对齐的代理搜索评估
“一个领域能否帮助其他领域?”基于数据的多领域强化学习推理研究
DesignLab:通过迭代检测与修正设计幻灯片
Yume:一个交互式世界生成模型
像素、模式,但无诗意:像人类一样看世界
构建用于定位诊断协作的眼科多模态LLM通过临床认知链推理
SmallThinker:一个为本地部署原生训练的高效大型语言模型家族
重建4D空间智能:一项综述
Rep-MTL:释放表示层任务显著性在多任务学习中的潜力
ARC-Hunyuan-Video-7B:现实世界短视频的结构化视频理解
Agent 强化策略优化
SciToolAgent:一个基于知识图谱的科学Agent,用于多工具集成
规范自校正:通过测试时优化缓解上下文奖励黑客行为
PRIX:从原始图像中学习规划用于端到端自动驾驶
与人工智能聊天:实时视频通信从人类到人工智能的意外转变
MMBench-GUI:面向GUI代理的分层多平台评估框架
深度研究者与测试时扩散
LLM量化几何:GPTQ作为Babai的最近平面算法
MedIQA:一种可扩展的基于提示的医学图像质量评估基础模型
OS-MAP: 计算机使用代理在广度和深度上能走多远?
分层预算策略优化用于自适应推理
《电影导演:面向短片生成》
LAPO:通过长度自适应策略优化内化推理效率
MUR:基于动量不确定性的大语言模型推理
NABLA:邻域自适应块级注意力
组序列策略优化
olmOCR:利用视觉语言模型解锁PDF中的数万亿个Token
SafeWork-R1: 在AI-45法则下的安全与智能协同进化
解耦大语言模型中的知识与推理:基于认知双系统理论的探索
Re:Form -- 在LLMs中使用强化学习减少人类先验知识的可扩展形式化软件验证:关于Dafny的初步研究
RAVine:现实对齐的代理搜索评估
“一个领域能否帮助其他领域?”基于数据的多领域强化学习推理研究
DesignLab:通过迭代检测与修正设计幻灯片
Yume:一个交互式世界生成模型
像素、模式,但无诗意:像人类一样看世界
构建用于定位诊断协作的眼科多模态LLM通过临床认知链推理