Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

标准LST:一种面向Tezos的原生协议流动性质押解决方案

分离智力与执行:面向模型上下文协议的工作流引擎































标准LST:一种面向Tezos的原生协议流动性质押解决方案

分离智力与执行:面向模型上下文协议的工作流引擎






























理解文本到视频检索中的性能瓶颈:一项综合的经验与语言学分析
持久视觉记忆:在LVLMs的深度生成中维持感知
EnergAIzer:面向 AI 工作负载的快速且准确 GPU 功耗估算框架
利用基于验证器的强化学习进行图像编辑
使用RoundPipe在多个消费级GPU上实现高效训练
ExoActor:作为可泛化交互人形控制的偏中心视频生成
联合演化的策略蒸馏
新时代视觉生成:从原子映射到代理世界建模的演变
异构科学基础模型协作
扩散模板:一种用于可控扩散的统一插件框架
RADIO-ViPE:动态环境中开放词汇语义SLAM的在线紧耦合多模态融合
ClawGym:构建高效Claw代理的可扩展框架
扭转局势:扩散大型语言模型的跨架构知识蒸馏
大语言模型通过潜在蒸馏进行探索
GLM-5V-Turbo:迈向面向多模态 agents 的原生基础模型
SWE-chat:来自真实用户在自然环境下编码智能体交互的研究
AdaExplore:面向高效内核生成的失败驱动自适应与多样性保持搜索
通过再生进行优化:扩展修改空间可提升统一多模态模型中的图像优化效果
AutoResearchBench: 在复杂科学文献发现中评估AI代理的基准测试
Meta-CoT:增强图像编辑的粒度与泛化能力
DV-World:在真实世界场景中基准测试数据可视化智能体
使用数据进行编程:来自原始语料的自我改进大型语言模型的测试驱动数据工程
递归多智能体系统
面向智能体 AI 的技能检索增强
SketchVLM:视觉语言模型能够对图像进行注释以解释思维过程并引导用户
RSRCC:通过检索增强最佳-N排序构建的遥感区域变化理解基准
LongSpeech:一个用于长语音转录、翻译与理解的可扩展基准
ClawMark:面向多轮、多日、多模态协作智能体的真实世界基准测试
Tuna-2:像素嵌入在多模态理解与生成中优于视觉编码器
视觉-语言-动作安全:威胁、挑战、评估与机制
理解文本到视频检索中的性能瓶颈:一项综合的经验与语言学分析
持久视觉记忆:在LVLMs的深度生成中维持感知
EnergAIzer:面向 AI 工作负载的快速且准确 GPU 功耗估算框架
利用基于验证器的强化学习进行图像编辑
使用RoundPipe在多个消费级GPU上实现高效训练
ExoActor:作为可泛化交互人形控制的偏中心视频生成
联合演化的策略蒸馏
新时代视觉生成:从原子映射到代理世界建模的演变
异构科学基础模型协作
扩散模板:一种用于可控扩散的统一插件框架
RADIO-ViPE:动态环境中开放词汇语义SLAM的在线紧耦合多模态融合
ClawGym:构建高效Claw代理的可扩展框架
扭转局势:扩散大型语言模型的跨架构知识蒸馏
大语言模型通过潜在蒸馏进行探索
GLM-5V-Turbo:迈向面向多模态 agents 的原生基础模型
SWE-chat:来自真实用户在自然环境下编码智能体交互的研究
AdaExplore:面向高效内核生成的失败驱动自适应与多样性保持搜索
通过再生进行优化:扩展修改空间可提升统一多模态模型中的图像优化效果
AutoResearchBench: 在复杂科学文献发现中评估AI代理的基准测试
Meta-CoT:增强图像编辑的粒度与泛化能力
DV-World:在真实世界场景中基准测试数据可视化智能体
使用数据进行编程:来自原始语料的自我改进大型语言模型的测试驱动数据工程
递归多智能体系统
面向智能体 AI 的技能检索增强
SketchVLM:视觉语言模型能够对图像进行注释以解释思维过程并引导用户
RSRCC:通过检索增强最佳-N排序构建的遥感区域变化理解基准
LongSpeech:一个用于长语音转录、翻译与理解的可扩展基准
ClawMark:面向多轮、多日、多模态协作智能体的真实世界基准测试
Tuna-2:像素嵌入在多模态理解与生成中优于视觉编码器
视觉-语言-动作安全:威胁、挑战、评估与机制