Command Palette

Search for a command to run...

百度出招!OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限;面部情感识别数据集 Facial Emotion Recognition,赋能 AI 读懂表情

Featured Image

现今文档内容的复杂性对解析技术提出了更多挑战:它们往往融合了长篇幅文本、复杂图表、专业公式、多语言等各种要素,并可能具有不规则的版面结构,因此高效、精准的文档解析已成为不可或缺的关键技术。

而文档解析领域当前的研究主要沿着两种技术路径展开:其一是采用基于模块化专家模型的管道式方法。这类方法虽在特定任务上表现稳定,但缺点也日益凸显:系统架构复杂、误差会沿处理环节叠加,并且在处理高度复杂的文档时,其能力存在固有的上限。二是基于多模态大模型的端到端方法,旨在简化工作流程并实现全局优化,但实际应用中常出现文本顺序错乱、面对长文档或复杂版式时生成「幻觉」内容等问题。此外,长序列输出带来的巨大计算成本,也限制了其在真实场景中的部署可行性。

基于这些现实挑战,百度推出了 PaddleOCR-VL,这是一个基于视觉语言模型、高性能且资源高效的文档解析模型。该模型核心组件是紧凑强大的视觉语言模型 PaddleOCR-VL-0.9B,它集成了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,从而能够实现精准的元素识别。这一创新模型高效地支持 109 种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现卓越,同时保持了极低的资源消耗。

通过综合评估,PaddleOCR-VL 在页面级文档解析和元素级识别任务上均实现了 SOTA 性能,在与顶尖视觉语言模型的对比中展现出强大的竞争力,使其更加适合于实际场景中的部署应用。

目前,HyperAI 超神经官网已上线了「PaddleOCR-VL:多模态文档解析」,快来试试吧~

在线使用:https://go.hyper.ai/3OjbB

11 月 17 日-11 月 21 日,hyper.ai 官网更新速览:

*  优质公共数据集:6 个

* 优质教程精选:3 个

*  本周论文推荐:  5 篇

* 社区文章解读:5 篇

* 热门百科词条:5 条

* 12 月截稿顶会:2 个

访问官网:hyper.ai

公共数据集精选

1. HumanSense Benchmark 人体感知基准数据集

HumanSense Benchmark 是由西安交通大学联合蚂蚁集团发布的一个人体感知评测基准数据集,旨在全面衡量模型在视觉、音频与文本等多模态信息融合下的真实交互能力。

直接使用:https://go.hyper.ai/9drzT

2. EditReward-Bench 图像编辑评测数据集

EditReward-Bench 是由中国科学技术大学联合中国科学院自动化研究所、北京智源人工智能研究院发布的一个面向图像编辑奖励模型的系统化评测基准,旨在从指令遵循、一致性保持与整体质量三个核心维度全面评估奖励模型的判别能力。数据集共包含 3,072 条由专家标注的偏好对比数据,全面囊括常见与复杂的真实应用场景。

直接使用:https://go.hyper.ai/OEVRn

3. UNO-Bench 全模态评测基准数据集

UNO-Bench 是由美团 LongCat 团队发布的首个统一的全模态评测基准,旨在高效评估单模态与全模态理解能力。该数据集包含 1250 条具备 98% 跨模态可解性的全模态样本,以及 2480 条单模态样本,覆盖 44 种任务类型与 5 种模态组合。数据集同时配套一个通用评分模型,可支持 6 种题型的自动化评估,为多模态任务提供统一的评测标准。

直接使用:https://go.hyper.ai/gIcIK

4. VERA 语音推理评测数据集

VERA 是由杜克大学联合 Adobe 发布的一个面向语音原生推理能力评测的大规模多任务语音数据集,旨在评估大模型在语音原生(voice-native)条件下的推理能力。所有样本均为语音形式原生呈现,音频由 Boson Higgs Audio 2 合成,保证一致、清晰与高质量的语音表现。

直接使用:https://go.hyper.ai/AfgW5

5. Facial Emotion Recognition 面部情感识别数据集

Facial Emotion Recognition 是一个面部情绪分类任务数据集,旨在用于训练与评估各类情感识别模型。该数据集涵盖 7 类基本情绪,包括愤怒、厌恶、恐惧、开心、中性、悲伤与惊讶。数据基于公开的 FER2013 与 RAF-DB 数据集进行处理与整合,并通过 HaarCascade(约 0.8 置信度)筛选人脸图像,同时完成去噪和质量提升。

直接使用:https://go.hyper.ai/z5x5N

数据集示例

6. AutoDock-GPU_Output 对接结果数据集

AutoDock-GPU_Output 是由 AutoDock-GPU 运行生成的示例对接输出日志 (.dlg),包含结合能、构象聚类及最终配体姿态等信息,作为对接结果解析的参考数据集,可用于学习结果解析和检查环境配置是否正常。

直接使用:https://go.hyper.ai/zz7wV

公共教程精选

1. PaddleOCR-VL:多模态文档解析

PaddleOCR-VL 是一款专为文档解析任务设计的、达到业界领先水平(SOTA)且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,这是一个紧凑而强大的视觉语言模型(VLM),它集成了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,从而能够实现精准的元素识别。这一创新模型高效地支持 109 种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现卓越,同时保持了极低的资源消耗。

在线运行:https://go.hyper.ai/3OjbB

效果示例

2. LongCat-Video:美团开源的 AI 视频生成模型

LongCat-Video 是美团 LongCat 团队开源的 136 亿参数的 AI 视频生成模型,在文本到视频(Text-to-Video)、图像到视频(Image-to-Video)和视频续写(Video-Continuation)等任务上表现出色,尤其擅长高效生成高质量的长视频。模型通过多奖励强化学习优化(GRPO),在内部和公共基准测试中展现出与领先开源视频生成模型及最新商业解决方案相当的性能。

在线运行:https://go.hyper.ai/3DWbb

效果示例

3. vLLM+OpenWebUI 部署 VibeThinker-1.5B

VibeThinker-1.5B 是微博 AI 发布的首个开源大模型。 该模型能力强大不靠堆参数,而是源于微博研发人员提出的 SSP 训练理念,即在学习阶段先鼓励模型发散探索所有可能的解题路径,而非一味关注正确率;随后,通过强化学习进行高效策略优化,精准锁定正确路径,将模型性能提升至极致。

在线运行:https://go.hyper.ai/PAcy1

效果示例

💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD 教程】,入群探讨各类技术问题、分享应用效果~

本周论文推荐

1. Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

本报告介绍了 Kandinsky 5.0,这是一个面向高分辨率图像与 10 秒视频合成的前沿基础模型家族。该框架包含三大核心模型系列:Kandinsky 5.0 Image Lite——一组参数量为 60 亿的图像生成模型;Kandinsky 5.0 Video Lite——一个轻量级、高效的 20 亿参数文本到视频及图像到视频生成模型;以及 Kandinsky 5.0 Video Pro——参数量达 190 亿的模型,能够实现卓越的视频生成质量。

论文链接:https://go.hyper.ai/cpPY4

2. P1: Mastering Physics Olympiads with Reinforcement Learning

本文提出了 P1 系列开源物理推理模型,该系列模型完全通过强化学习(Reinforcement Learning, RL)进行训练。其中,P1-235B-A22B 是首个在 2025 年国际物理奥林匹克竞赛(IPhO 2025)中取得金牌水平表现的开源模型,并在 2024 至 2025 年度的 13 项国际及区域性物理竞赛中斩获 12 枚金牌。

论文链接:https://go.hyper.ai/434Df

3. VIDEOP2R: Video Understanding from Perception to Reasoning

本文提出 VideoP2R——一种新颖的、面向过程的视频强化学习微调框架,通过将感知与推理建模为两个独立的过程,从而增强视频推理能力。大量实验表明,VideoP2R 在七个视频推理与理解基准测试中的六个上达到了当前最优性能。

论文链接:https://go.hyper.ai/0CChs

4. Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

本文推出了 Uni-MoE 2.0,作为一款完全开源的通用多模态大模型(Omnimodal Large Model, OLM),该模型在以语言为中心的多模态理解、推理与生成能力方面,显著推进了 Uni-MoE 的技术演进。在 85 项基准测试中的广泛评估表明,本模型在性能上达到或接近当前领先多模态大模型的最先进水平(SOTA),在 76 项基准中,有超过 50 项超越了训练数据量高达 1.2 万亿 token 的 Qwen2.5-Omni 。

论文链接:https://go.hyper.ai/wETcQ

5. Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

本文提出 Think-at-Hard(TaH)——一种动态的隐式思考机制,仅在难以预测的 token 上进行深度迭代。该方法引入一个轻量级神经决策器,仅在标准前向传播后判断可能出错的 token 上触发隐式迭代。在隐式迭代过程中,通过低秩适配(Low-Rank Adaptation, LoRA)模块,将 LLM 的目标从通用的下一个 token 预测,转变为聚焦于难例 token 的精细化修正。

论文链接:https://go.hyper.ai/jp3xw

更多 AI 前沿论文:https://go.hyper.ai/iSYSZ

社区文章解读

1.  跨学科创新远超人类?AI 科学家提假设/做实验/发顶会开启科学研究新范式

2024 年 8 月,Transformer 论文作者之一 Llion Jones 创立的 Sakana AI 推出全球首位「AI 科学家」,可自主提出研究问题、设计实验并撰写论文,引发全球科研界震动。从自动化实验到自主发现,AI 正从科研助手跃升为「共同研究者」。当 AI 走进实验室,科学的未来将被如何改写?

查看完整报道:https://go.hyper.ai/ICpf1

2.  在线教程丨目标检测迈入「全局感知」时代:清华大学等发布 YOLOv13,实现速度、精度双突破

清华大学、太原理工大学、西安交通大学等高校组成的联合研究团队提出了全新的目标检测模型——YOLOv13,将「相关性建模」从二元扩展到真正的高阶结构。最终结果显示,从小模型(N 系列)到大模型,YOLOv13 在 MS COCO 上均取得了显著提升,在参数和 FLOPs 更少的条件下达到了最先进的检测性能。其中,YOLOv13-N 相比 YOLOv11-N 提升了 3.0% 的 mAP,相比 YOLOv12-N 提升了 1.5% 。

查看完整报道:https://go.hyper.ai/W4vib

3. 图像地理定位新突破!缅因大学/谷歌/OpenAI 等提出 LocDiff 框架,实现无需网格与参考库的全球级精准定位

缅因大学、谷歌公司与哈佛大学等组成的联合团队提出了「球面谐波狄拉克函数(SHDD)」及集成框架 LocDiff,通过构建适配球面几何的编码方式与扩散架构,实现了不依赖预设网格或外部图像库的精准定位,为该领域提供了突破性的技术路径。

查看完整报道:https://go.hyper.ai/Ucsq8

4.  从 9,874 篇文献到 1.5 万晶体结构,MOF-ChemUnity 重构 MOF 全景知识,推动材料发现进入「可解释 AI」时代

来自加拿大多伦多大学以及加拿大国家研究委员会清洁能源创新研究中心的研究团队提出 MOF-ChemUnity:一个结构化、可扩展、可拓展的知识图谱。该方法利用 LLM 在文献中 MOF 名称及其同指代与 CSD 中登记的晶体结构之间建立可靠的一一映射,从而实现 MOF 名称及其同义词与晶体结构的消歧。

查看完整报道:https://go.hyper.ai/cRR1o

5.  从干洗店到伊丽莎白女王工程奖,李飞飞逆行硅谷技术神话,聚焦 AI 去人性化风险

2025 年春,李飞飞荣获「伊丽莎白女王工程奖」,以表彰其在计算机视觉与深度学习领域的奠基性贡献。作为 ImageNet 项目的核心推动者,她开创了数据驱动的视觉识别方法,也提出「以人为本」的 AI 理念,在硅谷的商业化浪潮中始终保持对 AI 伦理、社会价值与去人性化风险的警觉。然而,其少数派身份使她处于在科研成就与产业实践之间的微妙地带,引发持续讨论。

查看完整报道:https://go.hyper.ai/bRu25

热门百科词条精选

1. DALL-E

2.  超网络 HyperNetworks

3.  帕累托前沿 Pareto Front

4.  双向长短期记忆 Bi-LSTM

5.  倒数排序融合  Reciprocal Rank Fusion

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

12 月截稿顶会

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1800+ 公开数据集提供国内加速下载节点

* 收录 600+ 经典及流行在线教程

* 解读 200+ AI4Science 论文案例

* 支持 600+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai

百度出招!OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限;面部情感识别数据集 Facial Emotion Recognition,赋能 AI 读懂表情 | 资讯 | HyperAI超神经