Command Palette
Search for a command to run...
AI 论文周报丨 OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

目标检测长期以来一直由传统的基于坐标回归的模型主导,例如 YOLO 、 DETR 和 Grounding DINO 。尽管最近的研究尝试利用多模态大语言模型(MLLM)来处理这一任务,但仍然面临着召回率低、重复预测、坐标错位等挑战。
基于此,IDEA 计算机视觉与机器人研究中心提出了一个 3B 规模的 MLLM——Rex-Omni,实现了最先进的目标感知性能。在 COCO 和 LVIS 等基准测试中,Rex-Omni 在零样本设置下取得了与回归模型(例如 DINO 、 Grounding DINO)相当甚至超越的性能,为更通用、更注重语言的视觉感知系统铺平了道路。
论文链接:https://go.hyper.ai/wUhjs
最新 AI 论文:https://go.hyper.ai/hzChC
为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI 超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文,一起来速览本周 AI 前沿成果吧 ⬇️
本周论文推荐
1. DeepSeek-OCR: Contexts Optical Compression
本文提出 DeepSeek-OCR,作为通过二维光学映射压缩长上下文可行性的一项初步探索,该模型由两部分组成:DeepEncoder 作为编码器,以及 DeepSeek3B-MoE-A570M 作为解码器。在实际生产环境中,DeepSeek-OCR 可实现每日生成超过 20 万页的 LLM/VLM 训练数据(单张 A100-40G 显卡)。
论文链接:https://go.hyper.ai/IkTwG

2. Detect Anything via Next Point Prediction
本文提出了一种规模达 30 亿参数的 MLLM——Rex-Omni,其在目标感知性能上达到了当前最先进水平。除了传统的目标检测能力外,该模型本身具备的语言理解能力还赋予其多样化的泛化能力,包括对象指代、视觉指向、视觉提示(visual prompting)、 GUI 定位、空间指代、 OCR 识别以及关键点定位等,所有这些能力均在专用基准上进行了系统性评估。
论文链接:https://go.hyper.ai/wUhjs

3. AI for Service: Proactive Assistance with AI Glasses
在人工智能正从被动工具演变为积极且具备适应能力的伙伴的时代背景下,本文提出 AI for Service(AI4Service)这一全新范式,旨在实现日常生活中的主动式、实时性辅助。研究人员认为,一个真正智能且富有帮助的助手,应当具备预判用户需求的能力,并在适当情境下主动采取行动。为实现这一愿景研究人员提出了 Alpha-Service——一个统一框架,作为初步探索,通过部署在 AI 眼镜上的多智能体系统实现了 Alpha-Service 。
论文链接:https://go.hyper.ai/ehj6M

4. Rethinking Cross-lingual Gaps from a Statistical Viewpoint
本研究提出一种不同的视角,假设目标语言响应的方差是造成该差距的主要原因,首次从偏差-方差分解(bias-variance decomposition)的角度对跨语言差距进行了形式化定义,并展示了一种简单的提示指令(prompt instruction),可有效降低响应方差,在不同模型上均使目标语言准确率提升了 20% 至 25% 。
论文链接:https://go.hyper.ai/lhy5T

5. The Genome Analysis Toolkit
本文介绍了基因组分析工具包(Genome Analysis Toolkit, GATK),这是一个基于 MapReduce 函数式编程思想设计的结构化编程框架,旨在简化针对下一代 DNA 测序仪的高效、稳健分析工具的开发。 GATK 提供了一组精炼但功能丰富的数据访问模式,涵盖了绝大多数分析工具的需求。
论文链接:https://go.hyper.ai/hb5OR

以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。
同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。
下周再见!