Ebook2Audiobook 一键将电子书转有声读物；CVPR 首届跨域小样本对象检测挑战赛数据集上线

1 年前

在这个信息爆炸的时代，我们的眼睛早已不堪重负——通勤路上盯着手机屏幕、工作时对着电脑文档、睡前沉浸于小说世界。如果文本可以化作温暖声线，在晨跑时、做饭时、闭目养神时收听，那么信息的获取将不再受限于视觉。

Ebook2Audiobook 是一款旨在将电子书 (eBooks) 转换为有声书 (audiobooks) 的开源工具。该项目利用先进的文本到语音 (Text-to-Speech, TTS) 技术，将电子书中的文本内容转换为语音文件，生成可供收听的有声书。

目前，「Ebook2Audiobook 电子书转有声读物」教程已上线 hyper.ai 超神经官网，一键启动即可让你的电子书库在声波中重获新生，快来试试吧~

在线使用：https://go.hyper.ai/sgLbN

3 月 3 日-3 月 7 日，hyper.ai 官网更新速览：

* 优质公共数据集：10 个

* 优质教程精选：3 个

* 社区文章精选：6 篇

* 热门百科词条：5 条

* 3 月截稿顶会：5 个

访问官网：hyper.ai

公共数据集精选

1. CC-OCR 文字识别数据集

CC-OCR 数据集涵盖了多场景文本阅读、多语言文本阅读、文档解析和关键信息提取 4 大核心任务，包含 39 个子集和 7,058 张全标注图像。 CC-OCR 的推出填补了当前多模态模型在复杂结构和细粒度视觉挑战方面评估的空白，对推动多模态模型在实际应用中的进步具有重要意义。

直接使用：https://go.hyper.ai/rQT2y

2. MM-RLHF 多模态偏好对齐数据集

该数据集该数据集包含 12 万对细粒度、人工注释的偏好比较数据，覆盖图像理解、视频分析和多模态安全 3 个领域。数据量远超现有资源，涵盖了 10 万多条多模态任务实例。每条数据都经过 50 多位标注员的细致评分和解释，确保了数据的高质量和高粒度。

直接使用：https://go.hyper.ai/sTfNc

3. GAIA 视觉语言遥感图像理解数据集

GAIA 是一个用于遥感图像分析的全球性、多模态、多尺度视觉-语言数据集，旨在弥合遥感 (RS) 图像与自然语言理解之间的差距。该数据集涵盖了 25 年的地球观测数据（1998-2024 年），覆盖了多样化的地理区域、卫星任务和遥感模态。

直接使用：https://go.hyper.ai/JHgSb

4. OpenR1-Math-220k 数学推理数据集

OpenR1-Math-220k 是一个大规模的数学推理数据集，该数据集包含 22 万条高质量的数学问题及其推理轨迹，这些数据源自 80 万条由 DeepSeek R1 生成的推理轨迹。

直接使用：https://go.hyper.ai/VkUMt

5. JuDGE 中文法律判决书基准数据集

JuDGE 是一个专为中文法律系统设计的法律文书生成基准数据集。该数据集旨在通过高质量的标注数据，提升法律文书生成模型的性能，特别是在法律推理和文书撰写方面的能力，适用于法律智能系统、法律文书自动生成、法律问答系统等多种应用场景。

直接使用：https://go.hyper.ai/Fygtg

6. NTIRE2025 CDFSOD 小样本对象检测数据集

该数据集为 NTIRE 2025 首届跨域小样本对象检测挑战所使用的数据集，包含源数据集 COCO 和多个验证数据集，如 ArTaxOr 、 Clipart1k 、 DIOR 、 DeepFish 、 NEU-DET 、 UODD 等。该数据集的核心研究问题是，如何在跨领域场景中，仅使用非常有限的标注目标图像进行目标检测。

直接使用：https://go.hyper.ai/kGZhW

7. Cat Scratch YOLO-format Detection 猫抓物体 YOLO 格式检测数据集

该数据集是用于检测猫抓物体的 YOLO 格式数据集，包含约 1,500 张带背景的图像，每张图像都有与 YOLO 兼容的 .txt 标签文件，可用于训练物体检测模型，以识别猫是否在抓东西。

直接使用：https://go.hyper.ai/wkzNJ

8. Chinese DeepSeek R1 Distill data 110k 中文基于 DeepSeek-R1 蒸馏数据集

本数据集为中文开源蒸馏满血 R1 的数据集，数据集中不仅包含 math 数据，还包括大量的通用类型数据，总数量为 110K 。

直接使用：https://go.hyper.ai/5zvRt

9. Hand Gesture 手势检测数据集

该数据集专为智能电视手势控制系统构建，包含约 500 个独立采集的短视频样本。每个视频片段持续 2 至 3 秒，完整记录从手势起始动作到完整展示的动态过程。这些手势包括竖起大拇指、竖起大拇指、向左滑动、向右滑动和停止，并作为手势识别模型的单独训练样本。样本由不同年龄（18-65 岁）、性别和肤色的参与者协作完成，涵盖站立、坐姿等多种交互姿态，以捕捉真实用户可能出现的操作习惯差异。

直接使用：https://go.hyper.ai/nMdjB

10. Rich-Human-Feedback 图像数据集

该数据集旨在为文本到图像生成模型的训练与评估提供丰富反馈，包含 15k 张图片。它收集了超 15 万人提供的 150 万条注释，涵盖图像评分、语义一致性、修正建议等反馈。

直接使用：https://go.hyper.ai/GhD9w

公共教程精选

1. 一键部署 YOLOv12

长期以来，增强 YOLO 框架的网络架构一直是计算机视觉领域的核心课题。尽管注意力机制在建模能力上表现出色，但基于 CNN 的改进仍然是主流，因为基于注意力的模型在速度上难以匹敌。然而，YOLOv12 的推出改变了这一局面。它不仅在速度上与基于 CNN 的框架相媲美，还充分利用了注意力机制的性能优势，成为实时物体检测的新标杆。

该项目相关模型和依赖已经部署完毕，启动容器后点击 API 地址即可进入 Web 界面。

在线运行：https://go.hyper.ai/Wy1So

2. Ebook2Audiobook 电子书转有声读物

Ebook2Audiobook 是一款旨在将电子书 (eBooks) 转换为有声书 (audiobooks) 的开源工具。该项目利用先进的文本到语音 (Text-to-Speech,TTS) 技术，将电子书中的文本内容自动转换为语音，生成可供用户收听的有声书。 Ebook2Audiobook 支持多种电子书格式，如 EPUB 、 PDF 、 MOBI 等，并能够保留章节结构和元数据，使生成的有声书更加易于导航和理解。

进入官网克隆并启动容器，直接复制 API 地址，即可启动模型。

在线运行：https://go.hyper.ai/sgLbN

社区文章精选

1. 准确率达 97%，澳大利亚团队新成果基于深度学习凭颅骨 CT 鉴定性别，赶超人类法医

澳大利亚西澳大学等团队，提出了使用基于深度学习的自动化框架，该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描，训练并测试了 3 种基于深度学习的网络配置，其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断，分类准确率可达 97%，显著高于人类观察者的 82% 。本文是该论文的详细解读和分享。

查看完整报道：https://go.hyper.ai/0rfjM

2. 以 1.7K 深圳小区房价为例，浙大 GIS 实验室使用注意力机制挖掘地理情景特征，提升空间非平稳回归精度

浙江省 GIS 重点实验室的研究人员提出了一种基于注意力机制的深度学习模型 CatGWR 。该模型通过引入注意力机制，将样本之间的空间距离和情境相似性相结合，从而更准确地估计空间非平稳性。这为地理空间建模提供了新的视角，尤其是在处理复杂地理现象时，能够更好地捕捉空间异质性和情境影响。本文是该研究的详细解读和分享。

查看完整报道：https://go.hyper.ai/irDAo

3. 覆盖数学/代码/科学/谜题，高质量推理数据集汇总，助力复现 DeepSeek 超强推理能力

HyperAI 超神经精心整理了当前热度较高的推理数据集，涵盖数学、代码、科学、谜题等多个领域。对于期望切实提升大模型推理能力的从业者与研究者而言，这些数据集无疑是绝佳的起点。本文是数据集下载地址。

查看完整报道：https://go.hyper.ai/XGIi8

4. 入选 ICLR 2025！浙大沈春华等人提出玻尔兹曼对齐技术，蛋白质结合自由能预测达 SOTA

浙江大学等提出了一种名为玻尔兹曼对齐的技术，将知识从预训练的逆折叠模型迁移到了结合自由能的预测，该方法表现出了优越的水平，收录于人工智能领域国际学术顶会 ICLR 2025 。本文是该论文的详细解读和分享。

查看完整报道：https://go.hyper.ai/MsUDj

5. 模型参数超 RFdiffusion 5 倍！英伟达等发布 Proteina，从头设计蛋白质主链性能达 SOTA

英伟达联合麻省理工学院等，开发出了一种新型的大规模流式蛋白质主链生成器 Proteina 。 Proteina 的参数量是 RFdiffusion 模型的 5 倍，并将训练数据扩展到 2,100 万个合成蛋白质结构，在从头设计蛋白质主链方面的性能达到了 SOTA 级别，并以前所未有的长度——高达 800 个残基，生成了多样化且可设计的蛋白质，成果已入选 ICLR 2025 Oral 。本文是该研究的详细解读和分享。

查看完整报道：https://go.hyper.ai/n4fWv

6. 政府工作报告再提「人工智能+」，科技大佬两会提案聚焦 AI+ 医疗/AI 换脸拟声/大模型幻觉……

雷军、周鸿祎、刘庆峰等业界大佬紧扣时代脉搏，在新能源汽车、大模型幻觉、 AI 医疗、 AI 换脸、 AI 教育等多个关键领域积极提案建言。更多详情见下文。

查看完整报道：https://go.hyper.ai/EazuY