Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

理解是否推动统一多模态模型中的生成?从分析到未来路径

iMontage:统一、通用、高度动态的多对多图像生成































理解是否推动统一多模态模型中的生成?从分析到未来路径

iMontage:统一、通用、高度动态的多对多图像生成






























Agent0-VL:探索面向工具融合的视觉-语言推理的自演化智能体
MedSAM3:基于医学概念深入探索通用图像分割
SteadyDancer:基于首帧保留的协调一致的人体图像动画
GigaEvo:一个由 LLMs 和进化算法驱动的开源优化框架
基于随机路径积分的忠实度感知推荐解释
提取推荐系统中的交互感知单语义概念
MSRNet:用于伪装目标检测的多尺度递归网络
预算感知工具使用实现Agent的有效扩展
视频内指令:视觉信号作为生成控制
DR Tulu:面向深度研究的基于演化评分标准的强化学习
AICC:精细化HTML解析,提升模型性能 —— 基于模型HTML解析器构建的7.3T面向AI语料库
UltraFlux:面向跨多种纵横比的高质量原生4K文本到图像生成的数据-模型协同设计
DeCo:面向端到端图像生成的频率解耦像素扩散
计算机操作 Agent 作为生成式用户界面的评判者
AutoEnv:衡量 Agent 跨环境学习的自动化环境
通过深度研究实现通用智能体记忆
VIRAL:面向人形机器人运动操作的规模化视觉仿真到现实迁移
MIST:基于监督训练的互信息
多智能体深度研究:使用 M-GRPO 训练多智能体系统
无数据流程图提炼
Docling:一种高效的开源AI驱动文档转换工具包
HunyuanOCR 技术报告
PhysToolBench:面向MLLMs的物理工具理解能力评估
赫胥黎-哥德尔机器:通过最优自改进机器的近似实现人类水平的编码Agent开发
无需空间超感知的空间超感知求解
Parrot:输出真实性的说服与认同鲁棒性评级——面向 LLMs 的阿谀鲁棒性基准
O-Mem:用于个性化、长视界自我演进智能体的全维记忆系统
揭示文本本征维度:从学术摘要到创意故事
SAM 3:基于概念的万物分割
GeoVista:面向地理定位的网络增强 Agent 视觉推理
Agent0-VL:探索面向工具融合的视觉-语言推理的自演化智能体
MedSAM3:基于医学概念深入探索通用图像分割
SteadyDancer:基于首帧保留的协调一致的人体图像动画
GigaEvo:一个由 LLMs 和进化算法驱动的开源优化框架
基于随机路径积分的忠实度感知推荐解释
提取推荐系统中的交互感知单语义概念
MSRNet:用于伪装目标检测的多尺度递归网络
预算感知工具使用实现Agent的有效扩展
视频内指令:视觉信号作为生成控制
DR Tulu:面向深度研究的基于演化评分标准的强化学习
AICC:精细化HTML解析,提升模型性能 —— 基于模型HTML解析器构建的7.3T面向AI语料库
UltraFlux:面向跨多种纵横比的高质量原生4K文本到图像生成的数据-模型协同设计
DeCo:面向端到端图像生成的频率解耦像素扩散
计算机操作 Agent 作为生成式用户界面的评判者
AutoEnv:衡量 Agent 跨环境学习的自动化环境
通过深度研究实现通用智能体记忆
VIRAL:面向人形机器人运动操作的规模化视觉仿真到现实迁移
MIST:基于监督训练的互信息
多智能体深度研究:使用 M-GRPO 训练多智能体系统
无数据流程图提炼
Docling:一种高效的开源AI驱动文档转换工具包
HunyuanOCR 技术报告
PhysToolBench:面向MLLMs的物理工具理解能力评估
赫胥黎-哥德尔机器:通过最优自改进机器的近似实现人类水平的编码Agent开发
无需空间超感知的空间超感知求解
Parrot:输出真实性的说服与认同鲁棒性评级——面向 LLMs 的阿谀鲁棒性基准
O-Mem:用于个性化、长视界自我演进智能体的全维记忆系统
揭示文本本征维度:从学术摘要到创意故事
SAM 3:基于概念的万物分割
GeoVista:面向地理定位的网络增强 Agent 视觉推理