Command Palette
Search for a command to run...
IntrEx:教育的対話における関与をモデル化するためのデータセット
IntrEx:教育的対話における関与をモデル化するためのデータセット
Xingwei Tan Mahathi Parvatham Chiara Gambi Gabriele Pergola
概要
第二言語習得において、学習者の関与と動機付けは極めて重要であるが、教育的対話において学習者の関心を維持することは依然として課題である。これまでの研究では、教育的テキストがどのようにして興味を引くかについての検討がなされてきたものの、対話における関与を促す言語的特徴についてはまだ十分に理解されていない。このギャップを埋めるために、本研究では、教師と生徒の対話における「興味の有無」と「期待される興味の度合い」をアノテーションした、初めての大規模なデータセット「IntrEx」を紹介する。IntrExは「Teacher-Student Chatroom Corpus(TSCC)」を基盤として構築されており、個々の発話単位を越えた、対話全体にわたる関与の変化を捉えるために、シーケンスレベルのアノテーションを導入することで、先行研究を拡張している。本研究では、100人以上の第二言語学習者を対象に、強化学習による人間フィードバック(RLHF)を参考にした比較ベースの評価手法を用いた厳密なアノテーションプロセスを実施し、評価者の合意度を向上させた。さらに、大規模言語モデル(LLM)が人間の興味判断を予測できるかどうかを検証した結果、興味度評価データでファインチューニングされたLLM(7B/8Bパラメータ)が、GPT-4oなどの大規模なプロプライエタリモデルを上回る性能を示した。これは、専門的なデータセットを用いることで、教育現場における関与をモデル化する可能性が示されたことを意味する。最後に、具体性、理解しやすさ(読みやすさ)、および話題の受容(uptake)といった言語的・認知的要因が、教育的対話における関与にどのように影響するかを分析した。