HyperAI超神经

SeniorTalk 老年人对话中文语音数据集

日期

a month ago

大小

55.3 MB

机构

发布地址

github.com

SeniorTalk 数据集是由南开大学联合北京智源人工智能研究院,于 2025 年 3 月发布的世界首个中文超高龄老年人对话语音数据集,相关论文成果为:「SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors」。该数据集包含多维度的精细标注,包括说话人信息、对话内容转写、时间戳(包含句子级和词级)、口音类别标签等。这些来自真实世界的数据将为深入研究老年人语音信号、优化老年人语音交互系统提供宝贵支撑,并推动如设备适老化、健康管理、辅助养老机器人等相关产业的发展。

主要特点:

  • 数据规模大:202 位,55.53 小时的超高龄老年人语音数据。
  • 地域覆盖广:数据采自 16 个省市,涵盖不同地域口音。
  • 自然真实交互:采用两两自发对话,覆盖退休、健康、生活等话题,贴近真实交流场景。
老年人地域分布
老年人年龄及性别统计
SeniorTalk.torrent
做种 2正在下载 0已完成 13总下载次数 32
  • SeniorTalk/
    • README.md
      1.78 KB
    • README.txt
      3.56 KB
      • data/
          • .cache/
              • huggingface/
                • .gitignore
                  3.57 KB
                  • download/
                    • .gitattributes.lock
                      3.57 KB
                    • .gitattributes.metadata
                      3.66 KB
                    • README.md.lock
                      3.66 KB
                    • README.md.metadata
                      3.76 KB
                      • data/
                        • test-00000-of-00001.parquet.lock
                          3.76 KB
                        • test-00000-of-00001.parquet.metadata
                          3.88 KB
                        • train-00000-of-00001.parquet.lock
                          3.88 KB
                        • train-00000-of-00001.parquet.metadata
                          4 KB
                        • validation-00000-of-00001.parquet.lock
                          4 KB
                        • validation-00000-of-00001.parquet.metadata
                          4.13 KB
        • .gitattributes
          6.53 KB
        • SeniorTalk.zip
          55.3 MB