OpenGrok: Verbesserung der SNS-Datenverarbeitung durch kondensierte Kenntnisse und maskenartige Mechanismen

Dieser Bericht beschreibt den neuartigen Ansatz von Lumen Labs zur Verarbeitung von Daten aus sozialen Netzwerkdiensten (Social Networking Service, SNS). Wir nutzen Knowledge Distillation, speziell eine einfache Distanzierungsmethode, die von der CoT-Acquisition in DeepSeek-R1 inspiriert ist, kombiniert mit Prompt-Hacking, um wertvolle Trainingsdaten aus dem Grok-Modell zu extrahieren. Diese Daten werden anschließend verwendet, um ein Phi-3-mini-Modell zu feinabstimmen, das durch eine maskenartige Mechanik erweitert wurde, die speziell auf die Feinheiten von SNS-Daten abgestimmt ist. Unser Ansatz zeigt state-of-the-art (SOTA)-Leistung bei mehreren Aufgaben der SNS-Datenverarbeitung und übertrifft bestehende Modelle wie Grok, Phi-3 und GPT-4. Wir präsentieren eine umfassende Analyse unseres Ansatzes, einschließlich mathematischer Formulierungen, ingenieurtechnischer Details, Ablationsstudien und vergleichender Bewertungen.