HyperAIHyperAI

Command Palette

Search for a command to run...

推动社会科学研究规模化:迈向更广泛影响力的未来

OpenAI的核心使命之一是帮助科学家加速研究进程,攻克更复杂的问题。如今,其经济研究团队正式发布GABRIEL——一个开源工具包,利用GPT技术将非结构化的文本与图像转化为可量化的数据指标。该工具专为经济学家、社会科学家和数据科学家设计,旨在实现对海量定性数据的高效分析。 定性数据蕴含着关于人类行为、思想与经验的丰富信息,涵盖课程大纲、访谈记录、社交媒体内容、照片等多种形式。尽管这类数据数量庞大,但将其转化为严谨研究证据的过程却极为耗时,常常难以实现。许多社会科学研究因此被迫放弃具有价值的课题,不是因为数据缺失,而是因分析成本过高。 GABRIEL的出现正是为了解决这一难题。它允许研究人员用日常语言提出问题,例如“这份职位招聘启事有多家庭友好?”系统即可在数千甚至数百万份文档中一致地应用该问题,并为每份文档生成评分。这大幅减少了重复性的数据标注工作,使研究者能将精力集中在真正需要专业判断的环节:确定研究重点、验证结果、得出审慎结论。 例如,GABRIEL可分析大量学术论文,追踪特定研究方法的演变趋势;评估课程设置中不同主题或技能的重视程度;从欧洲各地小城镇的历史资料中提取结构化信息;或分析海量客户评论,揭示人们最看重的价值点。在相关论文中,OpenAI对GPT在多种场景下的定性数据标注能力进行了基准测试,结果显示其准确率极高。 除核心测量功能外,GABRIEL还集成了一系列实用工具:支持跨数据集合并(即使字段不一致)、智能去重、段落编码、辅助生成科学假设,以及自动去除文本中的个人信息以保障隐私安全。 目前,GABRIEL已作为开源Python库上线,配套提供入门教程笔记本,操作门槛低,无需深厚技术背景。OpenAI将持续根据学术界反馈优化该工具,希望推动更多研究者将定性数据中蕴含的人类故事与深层洞察融入科学研究。

相关链接