
要約
本稿では、未資源言語向け自然言語処理ソリューションワークショップ(NSURL)におけるアラビア語の意味的質問類似度検出タスクについて、当研究グループが提案する手法を述べる。本研究の目的は、提供されたデータセットを用いて、アラビア語で表現された質問の意味的類似性を検出できるモデルの構築である。本研究では、質問間類似度を評価するさまざまなアプローチを検討した。提案するモデルは、88%~96%の範囲で高いF1スコアを達成した。特に、異なるランダムシードを用いた事前学習済みマルチリンガルBERTモデルをアンサンブルした最適なモデルが、95.924%のF1スコアを記録し、参加した9チーム中で最高位を獲得した。