VC-Theorie
VC-DimensionEs wird verwendet, um die Kapazität eines binären Klassifikators zu messen. Es stellt die maximale Anzahl von Trainingsbeispielen dar, die der Klassifikator klassifizieren kann. Die intuitive Definition lautet: Wenn es für einen Indikatorfunktionssatz h Stichproben gibt, die durch die Funktionen im Funktionssatz in allen möglichen 2h-Formen erweitert werden können, dann kann der Funktionssatz die h Stichproben aufteilen. Die VC-Dimension des Funktionssatzes ist die maximale Anzahl von Samples h, die aufgeteilt werden können.
Wenn für eine beliebige Anzahl von Stichproben ein Satz von Funktionen existiert, der sie alle aufteilen kann, dann ist die VC-Dimension des Funktionssatzes unendlich. Die VC-Dimension einer beschränkten reellen Funktion kann über einen bestimmten Schwellenwert in eine Indikatorfunktion umgewandelt werden.
Bedeutung der VC-Dimension
Je größer der Wert der VC-Dimension ist, desto schlechter ist ihre Generalisierungsfähigkeit und desto größer ist das Vertrauensrisiko. Zusammenfassend lässt sich sagen, dass das Vertrauensrisiko durch eine Erhöhung der Stichprobenzahl und eine Reduzierung der VC-Dimension verringert werden kann.
VC kann auch die Aussagekraft der Hypothese H widerspiegeln, d. h. je größer die VC-Dimension, desto stärker ist H, da es mehr Punkte aufteilen kann.