ArcheType: Ein neues Framework für die Open-Source-Spalten-Typen-Annotierung mit großen Sprachmodellen

Bestehende Ansätze des tiefen Lernens zur semantischen Annotation von Spaltentypen (CTA) haben wichtige Nachteile: Sie basieren auf semantischen Typen, die zum Trainingszeitpunkt festgelegt sind; erfordern eine große Anzahl von Trainingsbeispielen pro Typ und verursachen hohe Laufzeitanalyse-Kosten; und ihre Leistung kann bei der Auswertung auf neuen Datensätzen abnehmen, selbst wenn die Typen konstant bleiben. Große Sprachmodelle haben in einer Vielzahl von Aufgaben starke zero-shot-Klassifikationsleistungen gezeigt, und in dieser Arbeit untersuchen wir ihre Verwendung für CA. Wir stellen ArcheType vor, eine einfache und praktische Methode für Kontextabtastung, Prompt-Serialisierung, Modellabfrage und Label-Remapping, die es großen Sprachmodellen ermöglicht, CTA-Probleme vollständig im zero-shot-Szenario zu lösen. Wir evaluieren jedes Komponenten unserer Methode getrennt voneinander und zeigen, dass Verbesserungen bei der Kontextabtastung und dem Label-Remapping die konsistentesten Gewinne bieten. ArcheType erreicht eine neue Spitzenleistung bei zero-shot-CTA-Benchmarks (einschließlich drei neuer domänenspezifischer Benchmarks, die wir zusammen mit diesem Paper veröffentlichen), und in Kombination mit klassischen CTA-Techniken übertrifft es ein SOTA DoDuo-Modell beim feintune-SOTAB-Benchmark. Unser Code ist unter https://github.com/penfever/ArcheType verfügbar.