OpenAI、質的データを大規模分析するオープンソースツール「GABRIEL」を公開
OpenAIは、社会科学研究の効率化を支援するオープンソースツール「GABRIEL」を公開した。このツールは、GPTを活用して文章や画像といった非構造化データを定量的な指標に変換する仕組みを持ち、経済学者や社会学者、データサイエンティストが質的データを大規模に分析できるように設計されている。 質的データは、人々の言葉、書き言葉、授業内容、議論、体験といった世界の豊かな側面を伝え、学術論文やインタビュー、SNS投稿、写真など多岐にわたります。しかし、こうしたデータを厳密な証拠に変えるには膨大な時間と労力が必要であり、多くの研究者が重要なテーマを諦めざるを得ない状況が続いている。GABRIELは、こうした課題を解決するための実用的手段として登場した。 研究者は日常的な言葉で測定したい内容を指定できる。たとえば「この求人広告は家族向けの配慮がどれほどあるか?」といった問いを出力し、数千乃至数百万件の文書に対して一貫して同じ基準で評価し、各文書にスコアを付与する。これにより、反復的なデータラベリング作業から解放され、専門的な判断——何を測定するか、結果の妥当性を検証する、慎重な結論を導く——に集中できる。 GABRIELの活用例には、科学論文の方法論の進化を追跡する、教育課程における各分野の重みを可視化する、ヨーロッパ各地の小都市の歴史的情報を構造化する、顧客レビューから価値観の傾向を抽出するなどがある。公開された論文では、GPTによる質的データのラベリングが多数の分野で高い正確性を示していることが確認されている。 さらに、GABRIELはデータの統合(カラムが一致しなくても可能)、重複削除、文章のコード化、研究仮説の立案、個人情報を匿名化するプライバシー保護機能も備える。Pythonライブラリとしてオープンソースで提供されており、チュートリアルノートブック付きで、技術的背景が浅い研究者でも利用可能。今後は学術コミュニティからのフィードバックをもとに継続的に改善を進める予定だ。 OpenAIは、GABRIELを通じて、人間の物語や社会の深層を科学的に掘り下げる研究の可能性を広げることを目指している。
