Belief und Plausibilität

Belief (deutsch: Glaubhaftigkeit) und Plausibilität (engl.: plausibility) sind Grundbegriffe in Glenn Shafers Evidenztheorie.^[1] Die Evidenztheorie modelliert Ungewissheit, die nicht nur (wie in der Wahrscheinlichkeitstheorie) vom Zufall, sondern auch von unvollständigem Wissen herrührt. Sie wird angewendet z. B. in der Künstlichen Intelligenz, insbesondere bei der Konstruktion wissensbasierter Systeme (knowledge based systems), bei der Wissensrepräsentation (knowledge representation), bei Wissenszusammenfassung (knowledge aggregation) und Wissensvermehrung (knowledge propagation).

Einführende Beschreibung

Sei $U=\{u_{1},u_{2},\dots ,u_{n}\}$ ein endliches Universum. Beispielsweise sind die $u_{i}$ mögliche Antworten auf ein Problem. Es ist gewiss, dass eine Antwort zutrifft, aber es ist ungewiss, welche das ist. Man unterscheidet folgende Fälle:

totale Evidenz: Man hat maximales Wissen in dem Sinne, dass alle Wahrscheinlichkeiten für das Eintreten der $u_{i}$ bekannt sind, d. h. die Wahrscheinlichkeitsverteilung über $U$ ist eindeutig bestimmt. Die Ungewissheit hängt nur vom Zufall ab.
partielle Evidenz: Man hat nur unvollständiges Wissen über die Wahrscheinlichkeitsverteilung über $U$ und kann daher für ein Ereignis $A\subset U$ nur Schranken für die Wahrscheinlichkeit angeben. Die untere Schranke ist auf alle Fälle glaubhaft als mögliche Wahrscheinlichkeit und heißt daher „Belief“, die obere Schranke für die mögliche Wahrscheinlichkeit ist immer noch plausibel und heißt daher Plausibilität. Die Ungewissheit hängt jetzt nicht nur vom Zufall ab, sondern auch vom fehlenden Wissen.
totale Ignoranz: Man hat kein Wissen über $U$ . Von den Wahrscheinlichkeiten für $A\subset U$ kann man nur sagen, dass sie zwischen Null und Eins liegen, d. h. es liegt totale Ungewissheit vor.

Beispiel

Es sind Zigaretten gestohlen worden. Die Diebe können nur Peter, Paul oder Egon sein, also $U=\{{\text{Peter}},{\text{Paul}},{\text{Egon}}\}$ . Folgender Wissensstand liegt vor: Jeder könnte allein den Diebstahl begangen haben, und zwar mit den Wahrscheinlichkeiten

P({\text{Peter}})=0{,}1;\quad P({\text{Paul}})=0{,}2;\quad P({\text{Egon}})=0{,}3

.

Meist aber stehlen Peter und Paul gemeinsam, selten gehen alle drei auf Tour, d. h. die noch fehlende Wahrscheinlichkeit von $0{,}4$ teilt sich z. B. in

P({\text{Peter}},{\text{Paul}})=0{,}3;\quad P({\text{Peter}},{\text{Paul}},{\text{Egon}})=P(U)=0{,}1

.

Daraus kann man die Schranken für die Wahrscheinlichkeit $\operatorname {Prob}$ der Täterschaften ausrechnen:

0{,}1\leq \operatorname {Prob} ({\text{Peter}})\leq 0{,}5;\quad 0{,}2\leq \operatorname {Prob} ({\text{Paul}})\leq 0{,}6;\quad 0{,}3\leq \operatorname {Prob} ({\text{Egon}})\leq 0{,}4

.

Formale Beschreibung von Belief und Plausibilität

Sei ${\mathcal {P}}(U)$ die Potenzmenge von $U$ , $P$ ein Wahrscheinlichkeitsmaß auf ${\mathcal {P}}(U)$ und $F(P):=\{B\in {\mathcal {P}}(U):P(B)>0\}$ die Menge aller Teilmengen von $U$ , die eine positive Wahrscheinlichkeit (d. h. einen positiven Teil der Evidenz) tragen. Dabei trägt ein $B\in F(P)$ nur den Teil der Wahrscheinlichkeit (der Evidenz), die nicht schon von Teilmengen von $B$ getragen wird, siehe auch obiges Beispiel. $F(P)$ heißt Evidenzkörper (engl. body of evidence). Das Wahrscheinlichkeitsmaß $P$ auf ${\mathcal {P}}(U)$ wird häufig Evidenz auf $U$ genannt. Wenn $F(P)=\{\{u_{1}\},\{u_{2}\},\dots ,\{u_{n}\}\}$ , dann liegt eine totale Evidenz vor, im Falle $F(P)=\{U\}$ hat man die totale Ignoranz. Belief und Plausibilität sind nun definiert durch

\operatorname {Bel} (A)=\sum _{B\in F(P):B\subseteq A}P(B);\quad \quad \operatorname {Pl} (A)=1-\operatorname {Bel} ({\overline {A}})=\sum _{B\in F(P):B\cap A\neq \emptyset }P(B);\quad \quad A\in {\mathcal {P}}(U)

.

Es gilt immer $\operatorname {Bel} (A)\leq \operatorname {Pl} (A)$ . Für eine totale Evidenz gilt $\operatorname {Bel} (A)=\operatorname {Pl} (A)=\operatorname {Prob} (A)$ und für eine totale Ignoranz hat man $\operatorname {Bel} (A)=0;\quad \operatorname {Pl} (A)=1$ . $\operatorname {Bel}$ ist eine normierte vollständig monotone Kapazität, $\operatorname {Pl}$ ist eine normierte vollständig alternierende Kapazität.

Beispiel (fortgesetzt)

Es ergeben sich mit $F(P)=\{{\text{Peter}},{\text{Paul}},{\text{Egon}},\{{\text{Peter,Paul}}\},U\}$ folgende Werte:

	Peter	Paul	Egon	Peter oder Paul	Peter oder Egon	Paul oder Egon
Belief	0,1	0,2	0,3	0,6	0,4	0,5
Plausibilität	0,5	0,6	0,4	0,7	0,8	0,9

Die Wahrscheinlichkeit $\operatorname {Prob}$ , dass Peter der Dieb ist, liegt also zwischen $0{,}1$ und $0{,}5$ , die Wahrscheinlichkeit, dass es Peter oder Paul sind, liegt zwischen $0{,}6$ und $0{,}7$ usw.

Dempsters Kombinationsregel

Dempsters Kombinationsregel (engl. Dempster rule of combination) ist ein wesentliches Werkzeug der Evidenztheorie. Mit dieser Regel können verschiedene Evidenzen zu einer neuen Evidenz zusammengefasst werden^[2]. Seien $P_{1},P_{2}$ zwei verschiedene Evidenzen auf demselben $U$ und $F(P_{1}),F(P_{2})$ ihre Evidenzkörper. Die kombinierte Evidenz $P_{1}\oplus P_{2}$ ergibt sich gemäß:

{\begin{aligned}&P_{1}\oplus P_{2}(A)&&=\sum _{B\in F(P_{1}),C\in F(P_{2}):B\cap C=A}P_{1}(B)\cdot P_{2}(C)/(1-K);\\&K&&=\sum _{B\in F(P_{1}),C\in F(P_{2}):B\cap C=\emptyset }P_{1}(B)\cdot P_{2}(C);\quad A\in {\mathcal {P}}(U).\end{aligned}}

$P_{1}\oplus P_{2}$ berücksichtigt nur die „Konsensteile“ der beiden Evidenzen $P_{1},P_{2}$ , d. h. für ein $A\in {\mathcal {P}}(U)$ nur die $B\in F(P_{1}),C\in F(P_{2})$ , die $A$ gemäß $B\cap C=A$ „erzeugen“. Alle $B\in F(P_{1}),C\in F(P_{2})$ mit $B\cap C=\emptyset$ werden nicht berücksichtigt, weil es Evidenzteile sind, die nichts Gemeinsames haben, also miteinander in Konflikt stehen. Die Größe $K$ im Nenner heißt daher auch Konflikt der beiden Evidenzen $P_{1},P_{2}$ .

Beispiel (fortgesetzt)

Wir benutzen das Diebstahlbeispiel von oben mit $U=\{{\text{Peter}},{\text{Paul}},{\text{Egon}}\}$ . Sei $P_{1}$ die Evidenz aus obigem Beispiel und $P_{2}$ eine weitere Evidenz, die Egon mit $0{,}3$ , Peter und Paul mit $0{,}6$ und alle zusammen mit $0{,}1$ als Täter sieht. $F(P_{1},F(P_{2}))$ mit den entsprechenden Wahrscheinlichkeiten ist in den folgenden beiden Tabellen aufgelistet:

$F(P_{1})$							$F(P_{2})$
Peter	Paul	Egon	Peter und Paul	alle ( $=U$ )			Egon	Peter und Paul	alle ( $=U$ )
0,1	0,2	´0,3	0,3	0,1			0,3	0,6	0,1

Berechnen wir erst den Konflikt: Es gibt 4 disjunkte Pärchen zwischen beiden Evidenzen, nämlich (Peter, Egon), (Paul, Egon), (Egon, Peter und Paul) und (Peter und Paul, Egon), d. h. es ergibt sich $K=0{,}1\cdot 0{,}3+0{,}2\cdot 0{,}3+0{,}3\cdot 0{,}6+0{,}3\cdot 0{,}3=0{,}36$ . Der Nenner in der Dempster-Regel ist also $1-K=0{,}64$ . Berechnen wir zum Beispiel $P_{1}\oplus P_{2}({\text{Peter}})$ . Es ergeben zwei Pärchen als Durchschnitt gerade (Peter), nämlich (Peter, Peter und Paul) und (Peter, alle( $=U$ )), d. h. im Zähler der Regel steht $0{,}1\cdot 0{,}6+0{,}1\cdot 0{,}1=0{,}07$ , also ergibt sich $P_{1}\oplus P_{2}({\text{Peter}})=0{,}07/0{,}64=0{,}109$ . Die folgende Tabelle zeigt das Gesamtergebnis:

$P_{1}\oplus P_{2}$
Peter	Paul	Egon	Peter und Paul	alle ( $=U$ )
0,109	0,219	0,234	0,422	0,016

Eigenschaften

Die totale Ignoranz $I$ ist das „Einselement“ der Dempster-Regel, d. h. es gilt: $P\oplus I=P$ .
Eine totale Evidenz $P_{T}$ gekoppelt mit einer beliebigen Evidenz $P$ ergibt wieder eine totale Evidenz, wobei allerdings $P_{T}\oplus P\neq P_{T}$ gilt.
Seien $P_{1},P_{2}$ zwei totale Evidenzen auf $U$ mit $P_{1}(\{u_{i}\})=p_{i}^{(1)},\quad P_{2}(\{u_{i}\})=p_{i}^{(2)};\quad u_{i}\in U;\quad i=1,\cdots ,n$ . Dann ist $P_{1}\oplus P_{2}$ eine totale Evidenz mit den Wahrscheinlichkeiten

(p_{1}\oplus p_{2})_{i}={\frac {p_{i}^{(1)}\cdot p_{i}^{(2)}}{\sum _{j=1}^{n}p_{j}^{(1)}\cdot p_{j}^{(2)}}};\quad i=1,\cdots ,n

.

Wenn man

P_{1}

als a-priori-Wahrscheinlichkeit interpretiert und

P_{2}

als (aktuelle) Likelihood-Verteilung, dann ist diese Formel identisch mit der bayesschen Formel zur Bestimmung der a-posteriori-Wahrscheinlichkeit.

Kritik

$P_{1}\oplus P_{2}$ „vergisst“ die Konfliktteile zwischen $P_{1}$ und $P_{2}$ , was insbesondere bei großem $K$ häufig gegen jede Intuition verstößt. Sei z. B. $U=\{A,B,C\}$ . Die Evidenz $P_{1}$ sei gegeben durch $P_{1}(\{A\})=0{,}99;\quad P_{1}(\{C\})=0{,}01$ und die Evidenz $P_{2}$ durch $P_{2}(\{B\})=0{,}99;\quad P_{2}(\{C\})=0{,}01$ . Dann ist $P_{1}\oplus P_{2}$ bestimmt durch $P_{1}\oplus P_{2}(\{C\})=1$ , d. h. der große Konflikt zwischen $A$ und $B$ ist vergessen. Wenn $A,B,C$ beispielsweise drei Filme sind und $P_{1},P_{2}$ die Interessen daran von Paul und Paula beschreiben, dann mag das hingehen, weil man sich auf den Konsensfilm $C$ einigt. Wenn aber $A={\text{Gehirntumor}};\quad B={\text{Gehirnhautentzündung}};\quad C={\text{Gehirnerschütterung}}$ und $P_{1},P_{2}$ die Meinung zweier Ärzte beschreiben, dann ist es völlig kontraintuitiv, dass man sich auf den kleinen Konsensteil ${\text{Gehirnerschütterung}}$ zurückzieht.

Dabei muss aber beachtet werden, dass im obigen Beispiel der Arzt $P_{1}$ offensichtlich eine totale Evidenz hat, dass es gar keine Gehirnhautentzündung sein kann, denn er räumt dieser Option eine Plausibilität von exakt null zu. Der Arzt $P_{2}$ dagegen hat eine totale Evidenz, dass kein Tumor vorhanden ist. Da jeweils für eine der Optionen ein definitiver Beweis vorliegt, dass sie nicht in Frage kommen $({Pl}(A)={Pl}(B)=0)$ , scheint auch intuitiv nachvollziehbarer, dass man sich auf die Resthypothese zurückzieht, der Patient habe eine Gehirnerschütterung, auch wenn keiner der Ärzte das für wahrscheinlich angenommen hat. Pathologisch an diesem Beispiel ist zudem, dass die Ärzte sich zu 100 % sicher sind, sich nicht irren zu können, dennoch aber sehr schlecht schätzen.

Weiterentwicklungen

Es gibt vielfältige Modifikationen und Weiterentwicklungen, beispielsweise was die exponentielle Komplexität der Dempster-Regel^[3]^[4], aber auch die Kritik an der Dempster-Regel betrifft.^[5]^[6]^[7]

Literatur

G. Shafer: Perspectives on the theory and practice of belief functions. In: International Journal of Approximate Reasoning. 3, 1990, S. 1–40.
G. Shafer, J. Pearl (Hrsg.): Readings in Uncertain Reasoning. Morgan Kaufmann, 1990.
J. Pearl: Reasoning with Belief Functions: Analysis of Compatibility, The International Journal of Approximate Reasoning 4 (1990), S. 363–389. doi:10.1016/0888-613X(90)90013-R
R. Kruse, E. Schwecke, J. Heinsohn: Uncertainty and Vagueness in Knowledge Based Systems, Springer 1991.
R.R. Yager, L. Lui: Classic works of the Dempster-Shafer theory of belief functions, Springer 2008.

Einzelnachweise

↑ Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press 1976.
↑ A. P. Dempster: A generalization of Bayesian inference. Journal of the Royal Statistical Society. Series B 30, 1968, S. 205–247 (full text).
↑ Gordon, J. and E.H. Shortliffe: The Dempster-Shafer Theory of Evidence, in: Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project (eds. Buchanan, B.G. and E.H. Shortliffe), Addison-Wesley 1984, S. 272–292 (MYCIN project).
↑ Shenoy, P.P., und G. Shafer, Propagating belief functions using local computations, IEEE Expert 1 (1986), S. 43–52.
↑ Ruspini, E.: The logical foundations of evidential reasoning, SRI Technical Note 408, 1986 (revised 1987).
↑ Wilson, N.: The assumptions behind Dempster’s rule, in: Proceedings of the 9th Conference on Uncertainty in Artificial Intelligence, S. 527–534, Morgan Kaufmann Publishers 1993, San Mateo, CA, USA.
↑ Voorbraak, F.: On the justification of Dempster’s rule of combination, Artificial Intelligence 48, 1991, S. 171–197.

[1] Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press 1976.

[2] A. P. Dempster: A generalization of Bayesian inference. Journal of the Royal Statistical Society. Series B 30, 1968, S. 205–247 (full text).

[3] Gordon, J. and E.H. Shortliffe: The Dempster-Shafer Theory of Evidence, in: Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project (eds. Buchanan, B.G. and E.H. Shortliffe), Addison-Wesley 1984, S. 272–292 (MYCIN project).

[4] Shenoy, P.P., und G. Shafer, Propagating belief functions using local computations, IEEE Expert 1 (1986), S. 43–52.

[5] Ruspini, E.: The logical foundations of evidential reasoning, SRI Technical Note 408, 1986 (revised 1987).

[6] Wilson, N.: The assumptions behind Dempster’s rule, in: Proceedings of the 9th Conference on Uncertainty in Artificial Intelligence, S. 527–534, Morgan Kaufmann Publishers 1993, San Mateo, CA, USA.

[7] Voorbraak, F.: On the justification of Dempster’s rule of combination, Artificial Intelligence 48, 1991, S. 171–197.

[1]

[2]

[3]

[4]

[5]

[6]

[7]