Scoring Rule

Dies ist die gesichtete Version, die am 31. August 2024 markiert wurde. Es existiert 1 ausstehende Änderung, die noch gesichtet werden muss.

In der Entscheidungstheorie ist eine score function oder scoring rule, zu deutsch eine Bewertungs-Regel, ein Maß für die Performanz einer Wahrscheinlichkeitsvorhersage eines Modells, ohne dabei zu dichotomisieren. Im Rahmen der probabilistischen Klassifikation und der empirischen Risikominimierung können Scoring rules als Verlustfunktionen eingesetzt werden.

Motivation

Bearbeiten

Eine Dichotomisierung der Wahrscheinlichkeitsvorhersage wird häufig bei der Beurteilung eines binären Klassifikators angewandt. Ein Vorteil von Scoring rules gegenüber anderen Bewertungsmetriken wie Precision, Recall oder F-Score, ist, dass eine schlechtere Wahrscheinlichkeitskalibrierung zu einem schlechteren scoring führt (was für die anderen Bewertungsmetriken nicht zwingend der Fall ist).

Daher werden in der probabilistischer Klassifikation, bei der es um gute Wahrscheinlichkeitskalibrierung geht (d. h. die vorhergesagten Wahrscheinlichkeiten mit den tatsächlichen übereinstimmen sollen), proper score functions zur Bewertung und als Verlustfunktion herangezogen[1].

 
Mit einer Kalibrationskurve kann herausgefunden werden, wie gut die Vorhersagen eines Modells kalibriert sind.

Definition

Bearbeiten

Eine Scoring rule ist eine Funktion, welche die Übereinstimmung einzelner Vorhersagen mit ihrer Beobachtung bewertet. Die Scoring rule   ist über dem zusammengesetzten Raum des Ergebnisraumes und der Wahrscheinlichkeitsmaße   definiert. Die Scoring-Funktion liefert die Bewertung   für die Vorhersage   bei Eintritt des Ereignisses  . Die Eintrittswahrscheinlichkeit des Ereignisses ist  , d. h.  .

Scoring rules werden in folgende Fälle unterschieden:

  • positive Orientierung, das heißt größere Scores sind besser
  • negative Orientierung, das heißt kleinere Scores sind besser

Erwartungswert der Scoring rule

Bearbeiten

Der Erwartungswert der Scoring rule   kann mithilfe einer zufälligen Stichprobe und einer Realisierung des Stichprobenmittelwertes geschätzt werden (welcher nach dem Gesetz der großen Zahlen konvergiert):

 

die Werte   sind die Wahrscheinlichkeitsvorhersagen für den Eintritt des realisierten Ereignisses  ,  .

Einteilung

Bearbeiten

Eine Scoring rule   positiver Orientierung heißt (analog für negative Orientierung, aber mit umgedrehten Ungleichungen)[2]:

  • strictly proper, falls :  für alle  
  • proper, falls :  für alle  
  • improper, falls :  für manche  

Eine scoring rule   heißt somit proper, wenn der Vorhersagende motiviert wird, ehrlich und kohärent zu schätzen.

Proper score functions

Bearbeiten
 
Darstellung des erwarteten Scores   für verschiedene Wahrscheinlichkeiten   (vertikale Linie) verschiedener scoring functions. Die x-Achse ist die Prädiktion q. Rot: linear, orange: spherical, purple: quadratic, green: log.

Brier score

Bearbeiten

Die häufigste Definition[3] des Brier score ist gegeben durch

 

Er sollte minimiert werden.

Logarithmische Score-Funktion

Bearbeiten

Die logarithmische Score-Funktion.

 
 
Erwartungswert der Logarithmische Score-Funktion unter Annahme, dass das Ereignis x=1 mit Wahrscheinlichkeit   erscheint. Die blaue Linie wird durch die Funktion   beschrieben. Das Maximum liegt bei  

Continuous ranked probability score

Bearbeiten
 
Illustration des Continuous ranked probability score (CRPS). Gegeben ist eine Stichprobe y und eine vorhergesagte kumulative Verteilung F. Der CRPS wird berechnet, indem man die Differenz zwischen den Kurven an jedem Punkt x des Trägers berechnet, diese Differenz quadriert und über den gesamten Träger integriert.

Der continuous ranked probability score (CRPS) ist eine strictly proper scoring rule. Der CRPS vergleicht eine einzelne Beobachtung   mit der vorhergesagten Verteilung. Er wird wie folgt definiert:

 

Dabei ist   die vorhergesagte kumulative Verteilungsfunktion über einem Träger, welcher durch   beschrieben wird und   ist die Beobachtung. Beachte, dass die Vorhersage mehrere Wahrscheinlichkeiten schätzt, sodass eine kumulative Verteilungsfunktion F entsteht.

Wenn die Vorhergesagte Dichte eine Delta-Distribution   ist (also ) dann ist der CRPS äquivalent zum Mean absolute error (MAE):  

Sphärische scoring rule

Bearbeiten

Die Sphärische scoring rule:

 

Beispiel Bernoulli-verteilte Zufallszahl

Bearbeiten

Betrachte die Aufgabe der Wettervorhersage, bei der an jedem Tag eine Regenwahrscheinlichkeit q vorhergesagt wird und es an einem Tag entweder regnet (x = 1) oder nicht regnet (x = 0). Die echte Wahrscheinlichkeit, dass es regnet ist sei p und die Wahrscheinlichkeit, dass es nicht regnet 1-p. Wir betrachten somit eine Bernoulli-verteilte Zufallszahl  :

  •  
  •  
  •  

Durch eine Statistik der vorhergesagten Wahrscheinlichkeiten q kann die tatsächliche Regenhäufigkeit p mit der Vorhersage abgeglichen werden. Besitzt die Vorhersage q oft eine große Abweichung zu p, so wird sie schlecht kalibriert genannt. Um den Vorhersagenden zu motivieren, die Wahrscheinlichkeitskalibrierung (seine Leistung) zu verbessern, kann ihm das Ziel gesetzt werden den Erwartungswert einer proper scoring rule positiver Orientierung   zu maximieren (oder bei negativer Orientierung zu minimieren).

Logarithmischer Score

Bearbeiten

Betrachte die Scoring-Funktion   so ist  . Maximierung des erwarteten Scores liefert:

 

Somit wird der erwartete Score durch die spezielle Wahl   maximiert und   ist eine proper scoring rule (positiver Orientierung).

Beachte: der negative Erwartungswert   entspricht der Kreuzentropie. Die Wahl einer logarithmischen scoring rule ist per-se willkürlich, kann jedoch durch Maximierung der Likelihood-Funktion motiviert werden.

Quadratischer Score

Bearbeiten

Betrachte die Scoring-Funktion   so ist  . Minimierung des erwarteten Scores liefert:

 

Somit wird der erwartete Score durch die spezielle Wahl   minimiert und   ist eine proper scoring rule (negativer Orientierung).

Absoluter Score

Bearbeiten

Betrachte die Scoring-Funktion   (mit  ), so ist  . Minimierung des erwarteten Scores liefert:

 

was nur für p = 0.5 wahr ist. Somit wird der erwartete Score nicht durch die spezielle Wahl   minimiert und   ist keine proper scoring rule.

Probleme

Bearbeiten

Eine extreme Ungleichheit bei den Klassenhäufigkeiten macht die Schätzung von Wahrscheinlichkeiten schwer[4].

Literatur

Bearbeiten
Bearbeiten

Einzelnachweise

Bearbeiten
  1. Greenberg, Spencer. "Calibration scoring rules for practical prediction training." arXiv preprint arXiv:1808.07501 (2018). https://arxiv.org/abs/1808.07501
  2. Economic Value of Weather and Climate Forecasts. (1997). Vereinigtes Königreich: Cambridge University Press. Seite 36, google books
  3. Healthcare Data Analytics. (2015). USA: CRC Press. https://www.google.de/books/edition/Healthcare_Data_Analytics/Iun5CQAAQBAJ?hl=de&gbpv=1&dq=brier%20score%20definition%20most%20common&pg=PA366&printsec=frontcover
  4. Wallace, Byron & Dahabreh, Issa. (2012). Class Probability Estimates are Unreliable for Imbalanced Data (and How to Fix Them). Proceedings - IEEE International Conference on Data Mining, ICDM. 695-704. doi:10.1109/ICDM.2012.115