Lernen aus der Masse durch Modellierung gemeinsamer Verwechslungen

Crowdsourcing bietet eine praktikable Methode, um große Mengen an gelabelten Daten kostengünstig zu beschaffen. Allerdings weichen die Annotationqualitäten der Annotatoren erheblich voneinander ab, was neue Herausforderungen bei der Lernung eines hochwertigen Modells aus crowdsourceten Annotationen mit sich bringt. In dieser Arbeit präsentieren wir einen neuen Ansatz, um Annotierungsrauschen in gemeinsames Rauschen und individuelles Rauschen zu zerlegen und die Quelle der Verwirrung basierend auf der Instanzschwierigkeit und der Expertise des Annotators auf pro-Instanz- und pro-Annotator-Basis zu differenzieren. Wir realisieren dieses neue Crowdsourcing-Modell durch eine end-to-end-Lernlösung mit zwei Arten von Rauschadaptations-Schichten: einer, die über alle Annotatoren hinweg geteilt wird, um gemeinsam geteilte Verwirrungen zu erfassen, und einer anderen, die jeweils für jeden Annotator spezifisch ist, um individuelle Verwirrungen zu modellieren. Um die Quelle des Rauschens in jeder Annotation zu erkennen, verwenden wir ein Hilfsnetzwerk, um die beiden Rauschadaptations-Schichten in Abhängigkeit sowohl von den Instanzen als auch von den Annotatoren auszuwählen. Umfassende Experimente an sowohl synthetischen als auch realen Benchmarks belegen die Wirksamkeit unseres vorgeschlagenen Ansatzes zur gemeinsamen Rauschadaptation.