2ヶ月前

クロスリンギスト的な主観性分類用のチェコ語データセット

Pavel Přibáň; Josef Steinberger
クロスリンギスト的な主観性分類用のチェコ語データセット
要約

本論文では、映画レビューと説明から抽出した1万件の主観的および客観的な文を手動でアノテーションした新しいチェコ語主観性データセットを紹介します。当方の主要な動機は、既存の英語データセットと共に使用できる信頼性のあるデータセットを提供し、事前学習済みの多言語モデルがチェコ語と英語間(およびその逆方向)での知識転送能力を評価するベンチマークとして利用することです。2人のアノテーターがこのデータセットにラベル付けを行い、コーエンのカッパ値で0.83の相互アノテーター合意率に達しました。当方の知る限り、これはチェコ語における最初の主観性データセットです。また、20万件の自動的にラベル付けされた文からなる追加データセットも作成しました。両方のデータセットは研究目的のために自由に利用可能です。さらに、5つの事前学習済みBERT類似モデルを微調整して、新規データセットに対する単一言語基準を設定し、93.56%の精度を達成しました。既存の英語データセットに対して微調整を行い、現行の最先端結果と同等の結果を得ました。最後に、チェコ語と英語間でのゼロショットクロスリンガル主観性分類を行って、当方のデータセットがクロスリンガルベンチマークとして利用可能かどうか検証しました。クロスリンガルおよび単一言語結果について比較・議論し、多言語モデルが言語間で知識を転送する能力について考察します。

クロスリンギスト的な主観性分類用のチェコ語データセット | 最新論文 | HyperAI超神経