2ヶ月前

ドイツ語オンライン新聞コメントにおけるセクシズムの検出にオープンソースのテキスト埋め込みを使用する(チームGDA、GermEval2024 共通タスク1: GerMS-Detect、サブタスク1および2、クローズドトラック)

Florian Bremm; Patrick Gustav Blaneck; Tobias Bornheim; Niklas Grieger; Stephan Bialonski
ドイツ語オンライン新聞コメントにおけるセクシズムの検出にオープンソースのテキスト埋め込みを使用する(チームGDA、GermEval2024 共通タスク1: GerMS-Detect、サブタスク1および2、クローズドトラック)
要約

オンラインメディアのコメントにおけるジェンダーバイアスは、しばしば微妙な形で現れる普遍的な課題であり、何がジェンダーバイアスであるかの解釈が個人によって異なるため、モデレーションの取り組みを複雑にしています。本研究では、単一言語および多言語のオープンソーステキスト埋め込みを用いて、オーストリアの新聞から収集されたドイツ語のオンラインコメントにおけるジェンダーバイアスと女性蔑視を確実に検出する方法を調査しました。テキスト埋め込みに基づく分類器は、人間の注釈者の個々の判断を精密に模倣することが観察されました。当社の手法は、GermEval 2024 GerMS-Detect サブタスク1において堅牢な性能を示し、平均マクロF1スコア0.597(Codabenchによると4位)を達成しました。また、GerMS-Detect サブタスク2においても人間の注釈分布を正確に予測し、平均Jensen-Shannon距離0.301(2位)を記録しました。当社のアプローチの計算効率性は、さまざまな言語や言語環境での大規模な応用への可能性を示唆しています。