Diskussion:Kullback-Leibler-Divergenz

Letzter Kommentar: vor 1 Jahr von Sigma^2 in Abschnitt Einleitung

Ereignisraum versus Ereignishorizont

Bearbeiten

Sollte es nicht Ereignisraums an Stelle von Ereignishorizonts heissen --194.76.29.2 16:20, 10. Dez 2004 (CET)vonallmm Sehe ich auch so: Ereignisraum ist in der WS-Theorie definiert, Ereignishorizont in der theoretischen Physik.

Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 15:23, 17. Okt. 2022 (CEST) (in aktueller Fassung nihct enthalten)

vs. vs.

Bearbeiten

Es ist definitv log2 und nicht log!! log Bedeutet im Sprachgebrauch log10 das ist falsch! Nen Wunder warum das auf allen Seiten so steht, wahrscheinlich einfahc copypasta. -- sssub (18:54, 3. Aug. 2009 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)

Das würde ich nicht sagen. Der Sprachgebrauch variert da erheblich. Meistens wird in der Informatik für log, der Logarithmus zur Basis 2 angenommen und in einigen Mathematikbüchern verweist man mit log sogar auf den natürlichen Logarithmus, der aber häufiger mit ln bezeichnet wird.

Woher habt ihr, dass es log_2 ist?! Klar könnte man log als log_10 missdeuten, aber.. in meiner Quelle steht 'ln', das ist eindeutig, und ich denke, die alten Artikel meinten mit log auch diesen. (Übrigens, in der encyclopediaofmath-Quelle ist es auch explizit ausgesprochen.. Werde es (mit Quellenangabe) demnächst ändern. --Kraymer (Diskussion) 19:04, 9. Mai 2012 (CEST)Beantworten
Ich muss leider allen obigen Meinungen widerprechen. Der Verzicht auf eine konkrete Basis des Logarithmus ist in der Informatik und angrenzenden Wissenschaften übliche Praxis, wenn die Basis unerheblich ist (s. a. unten) oder wenn sie - in Abhängigkeit von der Aufgabenstellung - frei gewählt werden kann. In diesem Fall kommt es darauf an in welcher Informationseinheit die KL-Divergenz berechnet werden soll: Bit bzw. Shannon - Basis 2; Nit - Basis  ; Ban - Basis 10; ...
In der Praxis ist die Basis 2 sicherlich am häufigsten anzutreffen, sie aber in einem Artikel zur Kullback-Leibler-Divergenz als Teil der Definition aufzunehmen ist schlicht falsch.
-- 82.119.29.173 15:01, 14. Jan. 2013 (CET)Beantworten

Logarithmus-Basisumrechnung

Bearbeiten

-> Logarithmus-Basisumrechnung ermöglicht den Verzicht der Angabe der Basis: log_a(r) = log_b(r) / log_b(a)

Definition

Bearbeiten

Mir stellen sich folgende Fragen:

  1. Ist die KL-Distanz für zwei beliebige Wahrscheinlichkeitsverteilungen definiert oder nur in den Fällen, in den beiden Verteilungen entweder diskret oder absolut stetig (d. h. mit Dichtefunktion) sind?
  2. Ist die KL-Distanz als reelle Zahl oder als erweitert reelle Zahl definiert?
  3. Ist die Existenz der Summe bzw. des Integrals als reelle Zahl oder als erweitert reelle Zahl garantiert?
  4. Welche Voraussetzungen werden gemacht, damit es nicht zur Definition durch Null kommt und damit nicht   berechnet werden muss?--Sigma^2 (Diskussion) 15:45, 17. Okt. 2022 (CEST)Beantworten

Allgemeiner Fall: Lässt sich diese extrem symbolische Schreibweise

 

noch etwas irdischer darstellen?--Sigma^2 (Diskussion) 17:39, 13. Okt. 2023 (CEST)Beantworten

Liegt es an  ? Das ist nur die übliche Notation für die Radon-Nikodým-Ableitung. Ich ergänze es noch.--Tensorproduct 11:21, 14. Okt. 2023 (CEST)Beantworten
Die Ergänzung ist gut. Für mich ist das schon verständlich. Aber wir müssen schon im Auge behalten, dass wahrscheinlich 99 % Prozent aller Anwender von Statistik und Wahrscheinlichkeitstheorie (in Soziologie, Psychologie, Medizin, Wirtschaftswissenschaften, Politologie, Medienwissenschaften, Ingenieurwissenschaften, Pädagogik, Marktforschung, in den statistischen Ämtern usw.) keine Ausbildung in Maßtheorie haben. Hilfreich für vielleicht ein Fünftel dieser 99 %, das sind diejenigen mit einer halbwegs vernünftigen quantitativen Ausbildung, wäre ein allgemeine Darstellung für Wahrscheinlichkeitsverteilungen auf  , die durch Verteilungsfunktionen gegeben sind. Das abstrakteste, was dann noch vermittelbar ist, sind Lebesgue-Stieltjes-Integrale bezgl. der Verteilungsfunktionen. Ich frage mich, ob ein nicht ganz so allgemeiner Fall nur mit Verteilungs- und Dichtefunktionen formulierbar wäre? --Sigma^2 (Diskussion) 23:42, 14. Okt. 2023 (CEST)Beantworten
Die von dir erwähnten Fachpersonen werden aber ganz bestimmt nicht die allgemeine Definition brauchen. Diese Definition werden höchstwahrscheinlich nur Mathematiker benützen. Da genügt ja die Definition für den diskreten Fall für die erste Zielgruppe.--Tensorproduct 00:28, 15. Okt. 2023 (CEST)Beantworten

Transinformation = Spezialfall der Kullback-Leibler-Distanz

Bearbeiten

Die Transinformation scheint mir nur ein Spezialfall der Kullback-Leibler-Distanz zu sein. Siehe dort Zeile: Definition über die Kullback-Leibler-Divergenz: "--Tensorproduct 13:20, 27. Sep. 2023 (CEST)Beantworten

Einleitung

Bearbeiten

Im zweiten Satz der Einleitung wird der Eindruck erweckt man könne die Kullback-Leibler-Divergenz für den Unterschied zwischen einer empirischen Verteilung, die immer diskret ist, und der Verteilung eines Modells berechnen. Wie geht dass, wenn die empirische Verteilung diskret ist und die theoretische Verteilung stetig? --Sigma^2 (Diskussion) 17:10, 13. Okt. 2023 (CEST)Beantworten

Dann nimmt man von der theoretischen Verteilung nicht alle Punkte, sondern nur diejenigen, welche man in der Stichprobe hat.--Tensorproduct 11:54, 14. Okt. 2023 (CEST)Beantworten
Ich verstehe es noch nicht, das scheint noch nicht mein Punkt zu sein. Ich mache es konkreter. Die theoretische Verteilung   sei die Standardnormalverteilung. Es liegen   Beobachtungen   vor und damit die empirische Verteilung
 
Dann ist doch   nicht  -stetig, da aus   nicht   folgt. Wie ist dann   definiert? (nicht signierter Beitrag von Sigma^2 (Diskussion | Beiträge) 23:44, 14. Okt. 2023 (CEST))Beantworten
Sei   und   und  , dann ist  .--Tensorproduct 00:26, 15. Okt. 2023 (CEST)Beantworten
Ich hatte verstanden, dass Du Dir das so vorstellst. Nur ist diese Idee nicht mit den drei angegebenen Definitionen verträglich. Weder sind beide Verteilungen stetig, noch beide diskret, noch ist    -stetig, wie in der allgemeinen Definition verlangt.
Ich habe auch Bedenken gegen diese Erweiterung, da eine Lebesgue-Dichte an abzählbar vielen Stellen beliebig abgeändert werden kann, so dass   grundsätzlich unbestimmt ist bzw. von der gewählten Version der Dichte abhängt.
Gibt es eine Quelle, wo so etwas vorgeschlagen wird? --Sigma^2 (Diskussion) 08:56, 15. Okt. 2023 (CEST)Beantworten
Nun, was soll man sonst machen? Meiner Meinung nach gibt es nur zwei Optionen: entweder man erweitert   bis man eine stetige Menge hat oder man verwendet die oben beschriebene Variante. Etwas anderes sehe ich nicht.
Edit: Ich denke, in der Praxis würde man sowieso nicht direkt mit der empirischen Verteilung arbeiten.--Tensorproduct 11:21, 15. Okt. 2023 (CEST)Beantworten

Es geht jetzt konkret um diesen Satz der Einleitung Typischerweise repräsentiert dabei eine der Verteilungen empirische Beobachtungen oder eine präzise Wahrscheinlichkeitsverteilung, während die andere ein Modell oder eine Approximation darstellt. Er ist sehr missverständlich und nicht durch die Ausführungen des Artikels gedeckt.

Was man machen kann, ist z. B. eine geschätzte Normalverteilung   mit Dichtefunktion  , wobei   und   der Erwartungswert und die Varianz der empirischen Verteilung   sind, mit einer theoretischen Normalverteilung   mit Dichtefunktion   zu vergleichen, das ist sinnvoll. Dann ist das bzgl. der theoretischen Verteilung erwartete Log-Likelihood-Verhältnis

 .

Damit hat man dann eine sehr enge Beziehung zur statistischen Inferenztheorie.--Sigma^2 (Diskussion) 13:59, 15. Okt. 2023 (CEST)Beantworten