CheXclusion: Fairness-Lücken bei tiefen Klassifizierern für Brust-Röntgenaufnahmen

Maschinelles Lernen hat in letzter Zeit erhebliche Aufmerksamkeit erhalten, da es in der Lage ist, Expertenleistung auf klinischen Aufgaben zu erzielen, insbesondere im Bereich der medizinischen Bildgebung. In dieser Studie untersuchen wir, in welchem Maße moderne Deep-Learning-Klassifizierer, die darauf trainiert wurden, diagnostische Labels aus Röntgenbildern abzuleiten, bezüglich geschützter Merkmale verzerren. Wir trainieren Convolutional Neural Networks, um 14 diagnostische Labels in drei bedeutenden öffentlichen Datensätzen für Thorax-Röntgenaufnahmen vorherzusagen: MIMIC-CXR, Chest-Xray8 und CheXpert, sowie in einer multimodalen Aggregation aller dieser Datensätze. Als Proxy für den sozioökonomischen Status evaluieren wir die Unterschiede im wahren Positiv-Rate (True Positive Rate, TPR) zwischen verschiedenen geschützten Merkmalen wie Geschlecht, Alter, ethnische Zugehörigkeit und Versicherungsart. Wir zeigen, dass TPR-Disparitäten in den modernsten Klassifizierern in allen Datensätzen, für alle klinischen Aufgaben und alle Untergruppen bestehen. Ein Datensatz, der aus mehreren Quellen zusammengestellt wurde, weist die geringsten Disparitäten auf, was einen Ansatz zur Reduzierung von Verzerrungen nahelegt. Wir stellen außerdem fest, dass die TPR-Disparitäten nicht signifikant mit der prozentualen Krankheitsbelastung einer Untergruppe korrelieren. Da klinische Modelle zunehmend aus wissenschaftlichen Arbeiten in reale Produkte überführt werden, empfehlen wir klinischen Entscheidungsträgern, vor der Implementierung sorgfältig auf algorithmische Disparitäten zu prüfen. Unser Quellcode ist unter https://github.com/LalehSeyyed/CheXclusion verfügbar.