CritiCal: Kann Kritik die Unsicherheits- oder Zuverlässigkeitskalibrierung von LLMs unterstützen?
Qing Zong Jiayu Liu Tianshi Zheng Chunyang Li Baixuan Xu Haochen Shi Weiqi Wang Zhaowei Wang Chunkit Chan Yangqiu Song

Abstract
Genauigkeit der Konfidenzkalibrierung in großen Sprachmodellen (Large Language Models, LLMs) ist entscheidend für deren sicheren Einsatz in hochriskanten Anwendungsbereichen, wo eine klare sprachliche Ausdrucksweise der Konfidenz das Vertrauen der Nutzer stärkt. Traditionelle Methoden, die Referenzausdrücke für Konfidenz nachahmen, scheitern häufig daran, die notwendige Argumentation für eine präzise Bewertung der Konfidenz zu erfassen. Wir schlagen natürliche Sprachkritik als Lösung vor, die sich besonders gut für die Kalibrierung von Konfidenz eignet, da genaue Gold-Labels für Konfidenz schwer zu ermitteln sind und oft mehrere Generierungen erfordern. Diese Arbeit untersucht, wie natürliche Sprachkritik die sprachliche Ausdrucksweise von Konfidenz verbessern kann, und beantwortet folgende Fragen: (1) Was soll kritisiert werden: Unsicherheit (frageorientiert) oder Konfidenz (antwortspezifisch)? Eine Analyse zeigt, dass Konfidenz bei Multiple-Choice-Aufgaben besser geeignet ist, während Unsicherheit in offenen, freien Aufgaben überlegen ist. (2) Wie soll kritisiert werden: Selbstkritik oder Kritik-Kalibrierungstraining? Wir präsentieren Self-Critique, eine Methode, die es LLMs ermöglicht, ihre Konfidenz nicht nur hinsichtlich der Genauigkeit, sondern auch in Bezug auf die Qualität der Konfidenzbewertung zu kritisieren und zu optimieren. Zudem stellen wir CriticCal vor, ein neuartiges Verfahren zum Kritik-Kalibrierungstraining, das natürliche Sprachkritik nutzt, um die Kalibrierung der Konfidenz zu verbessern – wobei der Fokus nicht auf direkter numerischer Optimierung liegt. Experimente zeigen, dass CriticCal sowohl gegenüber Self-Critique als auch gegenüber anderen anspruchsvollen Ansätzen deutlich übertrifft, selbst die Leistung seines Lehrmodells, GPT-4o, bei komplexen Schlussfolgerungsaufgaben übertreffend. Zudem zeigt CriticCal eine robuste Generalisierungsfähigkeit in ausserhalb der Trainingsverteilung liegenden Szenarien und trägt somit zur Verbesserung der Zuverlässigkeit von LLMs bei.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.