IndicVault 印度问答对数据集
Indic Vault 是一个印度日常语言问答对数据集,适用于聊天机器人和语音助手的调优。
该数据集包含以 2025 年印度各地使用的当代日常语言编写的问答对,捕捉了日常对话中使用的真实、口语化的表达。数据涵盖 20 个核心类别,包括金融、健康、科技、人际关系、家居生活、饮食烹饪、教育、职业、娱乐、旅行、体育、文化、社会、环境、科学、法律与政府、商业、农业、美容时尚和政治。
数据集特点:
- 混合语言参考:包括印地语、印度英语和泰卢固语
- 自然、口语化的语气:回复以人们在随意、真实的对话中说话的方式表达
- 实时性:根据 2025 年印度用户的期望编写的真实主题