Kreuzentropie

Dies ist die gesichtete Version, die am 10. November 2024 markiert wurde. Es existiert 1 ausstehende Änderung, die noch gesichtet werden muss.

Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung. Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log-Likelihood-Funktion gleich.

Definition

Bearbeiten

Sei   eine Zufallsvariable mit Zielmenge  , die gemäß   verteilt ist. Es sei weiter   eine Verteilung auf demselben Ereignisraum.

Dann ist die Kreuzentropie definiert durch:

 

Hierbei bezeichne   die Entropie von   und   die Kullback-Leibler-Divergenz der beiden Verteilungen.

Äquivalente Formulierung

Bearbeiten

Durch Einsetzen der beiden Definitionsgleichungen   und   ergibt sich nach Vereinfachung im diskreten Fall

 

und im stetigen Fall (mit Dichtefunktionen   und  )

 

Schätzung

Bearbeiten

Zwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback-Leibler-Divergenz, erstere lässt sich jedoch auch ohne genaue Kenntnis von   schätzen. In der praktischen Anwendung ist daher   meist eine Approximation einer unbekannten Verteilung  .

Nach obiger Gleichung gilt:

 ,

wobei   den Erwartungswert gemäß der Verteilung   bezeichnet.

Sind nun   Realisierungen von  , d. h. eine unabhängig und identisch gemäß   verteilte Stichprobe. Dann ist der Stichprobenmittelwert ein erwartungstreuer Schätzer für die Kreuzentropie, welcher nach dem Gesetz der großen Zahlen konvergiert und seine Realisierung ist

 

Zusammenhang mit Log-Likelihood-Funktion

Bearbeiten

Gegeben sei ein Modell mit Parametern   und (Ausgabe-)Wahrscheinlichkeitsdichte   welches die Wahrscheinlichkeitsdichte   annähern soll. Der wahre Wert der Parameter[1]   maximiert die erwartete Log-Likelihood-Funktion  

Diese Gleichungen können mithilfe von Stichproben genähert werden:  , wobei die Näherung wie unter Stichprobenmittelwert dargestellt folgt. Beachte, das Auftreten der Log-Likelihood-Funktion   in der Näherung, wobei die Skalierung   die Lage des Maximums nicht verändert.

Abgeleitete Größen

Bearbeiten

Die Größe   beziehungsweise   wird auch als Perplexität bezeichnet. Sie wird vor allem in der Spracherkennung verwendet.

Siehe auch

Bearbeiten

Literatur

Bearbeiten
Bearbeiten

Einzelnachweise

Bearbeiten
  1. Denis Conniffe: Expected Maximum Log Likelihood Estimation. In: The Statistician. Band 36, Nr. 4, 1987, ISSN 0039-0526, S. 317, doi:10.2307/2348828.