2ヶ月前
FHAC at GermEval 2021: 組み合わせ学習を用いたドイツ語の有害、参加促進、および事実主張コメントの識別
Tobias Bornheim; Niklas Grieger; Stephan Bialonski

要約
大規模事前学習ニューラルネットワークモデル(例えば BERT や ELECTRA)によって学習された言語表現の利用可能性は、近年多くの下流の自然言語処理タスクの改善につながっています。これらの事前学習モデルは、通常、事前学習目標、アーキテクチャ、および訓練に使用されるデータセットにおいて異なる特性を持ち、それらが下流の性能に影響を与える可能性があります。本研究では、GermEval 2021 競技で提供された Facebook データを用いて、ドイツ語版 BERT とドイツ語版 ELECTRA モデルを微調整し、有害なコメント(サブタスク 1)、魅力的なコメント(サブタスク 2)、および事実主張のコメント(サブタスク 3)を識別しました。さらに、これらのモデルのアンサンブルを作成し、分類性能がアンサンブルメンバーの数や構成にどのように依存するかを調査しました。未知データに対して、最良のアンサンブルはマクロ F1 スコアで 0.73(すべてのサブタスクについて)、そして各サブタスクごとに F1 スコアで 0.72、0.70、0.76 を達成しました。