Saiyma Sittul Muna Rezwan Islam Salvi Mushfiqur Rahman Mushfique Ajwad Abrar

要約
緊急時における秒単位の時間は命を左右する。限られた接続環境や接続が完全にない状況において、大規模言語モデル(LLM)の活用は依然として限られている。現行のモデルは計算リソースを多く消費するため、救助隊員や一般市民が使用する低性能デバイスには適さない。軽量で領域特化型のソリューション開発を阻む主要な障壁は、救急対応に特化した高品質なデータセットの不足にある。この課題を解決するため、本研究では「FirstAidQA」という合成データセットを提案する。このデータセットには、救急処置および緊急対応の多様なシナリオをカバーする5,500件の高品質な質問・回答ペアを含む。データセットは、『Vital First Aid Book(2019年版)』のテキストを基に、ChatGPT-4o-miniという大規模言語モデルを用いて、プロンプト駆動型のコンテキスト学習により生成された。その後、テキストのクリーニング、文脈ごとのチャンク分割、フィルタリングといった前処理を実施し、さらに人間による検証を経て、質問・回答ペアの正確性、安全性、実用性を確保した。FirstAidQAは、大規模言語モデル(LLM)および小規模言語モデル(SLM)のインストラクションチューニングおよびファインチューニングを支援することを目的として設計されており、緊急現場における高速かつ信頼性が高く、オフライン運用可能なシステムの実現を可能にする。本研究では、救急対応および緊急対応における安全が求められる、リソース制約のあるAI応用に関する研究を促進するため、データセットを公開する。