Meta-Selbstlernen für die Multi-Quellen-Domänenanpassung: Eine Benchmark

In den letzten Jahren haben tiefes Lernen-basierte Methoden in der Computer Vision vielversprechende Ergebnisse erzielt. Allerdings erfordert ein typisches tiefes Lernmodell eine große Menge an gelabelten Daten, die zeitaufwendig zu sammeln und zu annotieren sind. Darüber hinaus kann das Modell durch einen Domänenversatz zwischen Trainings- und Testdaten beeinträchtigt werden. Die Texterkennung ist ein breit untersuchtes Gebiet innerhalb der Computer Vision und leidet aufgrund der Vielfalt an Schriftarten und komplexen Hintergründen unter denselben Problemen. In diesem Artikel konzentrieren wir uns auf das Problem der Texterkennung und leisten drei Hauptbeiträge zur Lösung dieser Herausforderungen. Erstens sammeln wir einen mehrquellenbasierten Domänenanpassungs-Datensatz für die Texterkennung, der fünf unterschiedliche Domänen mit über fünf Millionen Bildern umfasst – dies ist, soweit uns bekannt, der erste mehrdomänenbasierte Datensatz für die Texterkennung. Zweitens stellen wir eine neue Methode namens Meta Self-Learning vor, die das Selbst-Lernen mit dem Meta-Lernparadigma kombiniert und unter Bedingungen der mehrdomänenbasierten Anpassung eine verbesserte Erkennungsergebnisse erzielt. Drittens führen wir umfangreiche Experimente auf diesem Datensatz durch, um eine Benchmark bereitzustellen und die Wirksamkeit unserer Methode zu belegen. Der Quellcode unserer Arbeit sowie der Datensatz werden bald unter https://bupt-ai-cz.github.io/Meta-SelfLearning/ verfügbar sein.