17日前

CalBERT - BERTを用いたコドミックス適応型言語表現

{Ashwini M Joshi, Deeksha D, Aronya Baksy, Ansh Sarkar, Aditeya Baral}
CalBERT - BERTを用いたコドミックス適応型言語表現
要約

コードミックス言語とは、書記体系または発話において二つ以上の言語様式を組み合わせた言語の一種である。コードテキストの分析は、言語の使用が一貫性に欠け、従来の単言語向けアプローチが適用できないため、取り組みが困難である。本研究では、事前学習済みの単言語Transformerモデルが、少量のコードミックスデータを用いて、コードミックス言語の言語表現に適応できるよう、新たに「シアメーズ事前学習(Siamese Pre-Training)」という追加ステップを導入する新しいアプローチを提案する。この提案手法は、インド諸言語の感情分析(SAIL)データセットにおいて、既存の最先端手法を上回るF1スコアを達成し、最高で5.1ポイントの改善を実現した。また、IndicGLUE製品レビューデータセットにおいても、ベンチマークを0.4ポイント上回る最先端の精度を達成した。