Vorhersage subjektiver Merkmale von Fragen von QA-Websites mithilfe von BERT

Community-Question-Answering-Websites wie StackOverflow und Quora erwarten von ihren Nutzern, dass sie bestimmte Richtlinien befolgen, um die Inhaltsqualität aufrechtzuerhalten. Diese Systeme stützen sich hauptsächlich auf Berichte durch die Community zur Bewertung von Inhalten, was gravierende Probleme mit sich bringt, darunter die langsame Behandlung von Verstößen, die Verschwendung wertvoller Zeit erfahrener und normaler Nutzer, die geringe Qualität mancher Berichte sowie die abschreckende Wirkung auf neue Nutzer. Daher verfolgen wir im Sinne eines umfassenden Ziels, Lösungen zur Automatisierung von Moderationsmaßnahmen auf Q&A-Websites bereitzustellen, das Ziel, ein Modell zur Vorhersage von 20 Aspekten der Qualität oder Subjektivität von Fragen auf Q&A-Websites zu entwickeln. Hierzu nutzten wir Daten, die im Jahr 2019 vom CrowdSource-Team bei Google Research gesammelt wurden, sowie ein feinabgestimmtes, vortrainiertes BERT-Modell für unser Problem. Auf Basis der Bewertung mittels Mean-Squared-Error (MSE) erzielte das Modell nach zwei Trainings-Epochen einen Wert von 0,046, der sich in den folgenden Epochen nicht signifikant verbesserte. Die Ergebnisse bestätigen, dass sich durch einfache Feinabstimmung bereits präzise Modelle in kurzer Zeit und mit geringem Datenaufwand entwickeln lassen.