Unsicheres Wissen

In den bisher besprochenen Repräsentationen wurde Wissen immer in Form von eindeutigen Fakten, Regeln, Bedingungen oder Abbildungen gespeichert. Oft ist es jedoch nicht möglich, eindeutige Aussagen über die reale Welt zu treffen oder einen strikten Zusammenhang zwischen Bedingung und Schlußfolgerung herzustellen. Vielmehr können Aussagen und Schlußfolgerungen nur mit einer bestimmten Unsicherheit getroffen werden. Eine Möglichkeit diese Unsicherheit darzustellen ist, anzugeben mit welcher Wahrscheinlichkeit die Aussagen und Schlußfolgerungen zutreffen. Quellen für die Unsicherheit von Information können sein [Gottlob1990]: 
Inhärente Unsicherheit der Information,
z.B. die Information eines Temperatursensors mit der Toleranz von $\pm1^\circ$C. 
Unvollständigkeit der Information
, es werden z.B. fehlende Informationen durch Annahmen ersetzt, sind alle Schlußfolgerungen, die auf dieser Annahme basieren, unsicher. 
Unsicherheit von Schlußfolgerungen:
Es kann kein strikter Zusammenhang zwischen Bedingung und Schlußfolgerung hergestellt werden, z.B. ,,Wenn der Patient mehr als $38^\circ$C Fieber hat, dann ist er mit der Wahrscheinlichkeit von 0,7 an Grippe erkrankt.'' 
Zusammenfassung von Informationen aus mehreren Quellen,
widersprechen sich z.B. die Aussagen von zwei Experten, so erhöht dies die Unsicherheit dieser Aussagen. 
Unsicherheiten können nummerisch oder symbolisch dargestellt werden. Bei der symbolischen Repräsentation wird der Grad der Unsicherheit durch Elemente aus einer vorgegebenen Menge von Symbolen ausgedrückt, z.B. durch Begriffe wie ,,meistens'', ,,beinahe'', ,,immer'', usw. Bei dieser Methode ist es aber schwierig die Fortpflanzung der Unsicherheit beim Schlußfolgern zu berücksichtigen. 

Bei der nummerischen Repräsentation wird die Unsicherheit durch die Zuordnung von einem oder mehreren Zahlenwerten, z.B. der Wahrscheinlichkeit, ausgedrückt. Für die Darstellung der Fortpflanzung der Unsicherheit gibt es mathematische Formalismen. Jedoch ist es oft nicht möglich, einer Aussage oder Schlußfolgerung einen exakten Wahrscheinlichkeitswert zuzuordnen. Im nachfolgenden werden drei Verfahren zur nummerischen Repräsentation von Unsicherheit vorgestellt. 

Theorem von Bayes

In der klassischen Wahrscheinlichkeitsrechnung ist die Wahrscheinlichkeit als 
 
\begin{displaymath}p(X)=\frac{\mbox{Anzahl der günstigen Ereignisse}}{\mbox{Anzahl dermöglichen Ereignisse}}\end{displaymath} (3.11)
definiert. Diese Definition erweist sich für die Darstellung von Unsicherheiten als nicht geeignet. Daher wird die Wahrscheinlichkeit als der Grad des Vertrauens einer Person in eine Hypothese definiert. Eine Hypothese bezeichnet eine Annahme über einen Sachverhalt. Die Wahrscheinlichkeiten sind Werte im Intervall [0,1]. Folgende Schreibweisen werden im weiteren verwendet [Gottlob1990]: 
 
 
 
 
 
 
 
 
 
 
 
 
 

$p(X)$ ... Wahrscheinlichkeit, daß X wahr ist
$p(X_1,X_2,...,X_n)$ ... Wahrscheinlichkeit, daß $X_1,X_2,...,X_n$ alle wahr sind
$p(X_1,X_2,...,X_n\vert Y_1,Y_2,...Y_n)$ ... Wahrscheinlichkeit, daß $X_1,X_2,...,X_n$ alle wahr sind, unter der Voraussetzung, daß $Y_1,Y_2,...,Y_n$ wahr sind (bedingte Wahrscheinlichkeit)
<> 

Allgemeines Theorem von Bayes

Gegeben sei eine Menge von Hypothesen $H=\{h_1,h_2,...,h_n\}$ und eine Menge von Ereignissen $E=\{e_1,e_2,...,e_m\}$. Das allgemeine Bayes'sche Theorem baut auf folgenden Voraussetzungen auf [Gottlob1990]: 
 
 
 
 
 
 
 
 
 
 
 
 
 

Die Hypothesen in der Menge H schließen sich gegenseitig aus:

\begin{displaymath}p(h_i,h_j)=0 \mbox{ für } i\neq j \end{displaymath}


Die Menge H ist erschöpfend:

 
\begin{displaymath}\sum_{i=1}^{n}p(h_i)=1 \end{displaymath} (3.12)
Jedes Teilergebnis $e_i$ ist bedingt unabhängig von jeder Hypothese: 
 
\begin{displaymath}p(e_1,e_2,...,e_m\vert h_i)=\prod^m_{j=1} p(e_j\vert h_i)\end{displaymath} (3.13)
Das allgemeine Bayes'sche Theorem besagt, daß die a-posteriori Wahrscheinlichkeit $p(h_i\vert e_1,e_2,...,e_m)$ einer Hypothese $h_i$ als Funktion der bedingten Wahrscheinlichkeiten $p(e_1,e_2,...,e_m\vert h_i)$ sowie der a-priori Wahrscheinlichkeiten $p(h_i)$ berechnet werden kann [Gottlob1990]: 
 
 
 
\begin{displaymath}p(h_i\vert e_1,e_2,...,e_m)=\frac{p(e_1,e_2,...,e_m \vert......_i)}{\sum\limits_{k=1}^{n}p(e_1,e_2,...,e_m \vert h_k)p(h_k)}\end{displaymath} (3.14)
Der Spezialfall für ein Ereignis $E$ und eine Hypothese $H$ sieht folgendermaßen aus: 
 
 
 
\begin{displaymath}p(H\vert E)=\frac{p(E\vert H)p(H)}{p(E)} \end{displaymath} (3.15)
Die Anwendung des Satzes soll nun durch ein Beispiel veranschaulicht werden. Im Beispiel tritt das Ereignis $E$ ,,Die Reifen eines Autos quietschen.'' mit der Wahrscheinlichkeit $p(E)=0,05$ auf; die Hypothese$H$ ,,Die Bremsen des Autos sind schlecht eingestellt.'' mit der Wahrscheinlichkeit $p(H)=0.02$

Nehmen wir weiters an, daß schlecht eingestellte Bremsen oft, aber nicht immer, ein Quietschen der Räder verursachen. Die bedingte Wahrscheinlichkeit dafür ist $p(E\vert H)=0,7$. Wenn man nun ein Quietschen der Reifen beobachtet, so kann man mit Hilfe des Bayes'schen Theorem die Wahrscheinlichkeit berechnen, daß die Bremsen schlecht eingestellt sind. 
 
 

\begin{displaymath}p(H\vert E)=\frac{0,7*0,02}{0,05}=0,28\end{displaymath}
Durch die Beobachtung des Ereignisses $E$ hat sich die Wahrscheinlichkeit der Hypothese $H$ von 0,02 auf 0,28 erhöht. Die Berechnung von $p(H\vert E)$ ausgehend von $p(H)$ kann als Neubewertung der Hypothese $H$ beim Eintreten des Ereignisses $E$ aufgefaßt werden. Darin liegt die Stärke dieses Theorems. Mit ihm läßt sich die Fortpflanzung der Unsicherheit berechnen. Der Nachteil ist jedoch, daß zu jedem Ereignis und zu jeder Hypothese die Wahrscheinlichkeit und die entsprechenden bedingten Wahrscheinlichkeiten gespeichert werden müssen. Dies erfordert eine große Datenmenge, die schwer zu beschaffen ist und auch oft nicht mit mathematischer Exaktheit beschafft werden kann. [Gottlob1990


Certainty Factors

In der Praxis werden daher aus oben genannten Gründen Unsicherheiten anstelle von Wahrscheinlichkeiten durch sogenannte Certainty Factors ausgedrückt. Jeder Regel wird ein fester Certainty Factor zugeordnet. Den Fakten, die eine Regel erfüllen muß, sind dynamische Certainty Faktoren zugeordnet. Bei der Abarbeitung einer Regel wird aus den festen und dynamischen Faktoren der Certainty Factor der Schlußfolgerung berechnet. Somit erhält man neue, bewertete Fakten. Der Vorteil der Certainty Factors liegt darin, daß für jede Regel und für jedes Faktum nur ein Wert gespeichert werden muß. Es werden keine bedingten Wahrscheinlichkeiten gespeichert. Daher sind sie einfacher zu handhaben und leichter zu implementieren. Die Implementierung von Certainty Factors wird im Abschnitt 6.8 anhand von Expertensystemen genauer ausgeführt. [Gottlob1990

Fuzzy Logik

Der Grundgedanke der Fuzzy Logik ist es, eine Theorie der unscharfen Mengen zu entwickeln. Durch die unmittelbare Verknüpfung zwischen Mengenlehre und Logik ist damit auch die Theorie der unscharfen Logik verknüpft. An dieser Stelle soll nur erwähnt werden, wie in der Fuzzy Logik unsicheres Wissen gespeichert wird. Näher wird auf dieses Thema in Kapitel 7 eingegengen. [Rojas1993

In der klassischen Mengenlehre gilt für ein Objekt, daß es entweder Element oder kein Element der Menge ist. In der Fuzzy Logik besitzt eine Menge keine so scharfen Grenzen. Damit ist es möglich, daß ein Element nur ,,zu einem bestimmten Grad'' einer Menge angehört. Der Grad der Zugehörigkeit wird durch einen Wert aus dem Intervall [0,1] angegeben. Dieses Konzept erweist sich als vorteilhaft, wenn man Zuordnungen aus dem natürlichen Sprachgebrauch darstellen will. 

Ein Beispiel dafür ist die Aussage: ,,Die Person X ist groß.''. Befragt man mehrere Personen wo für sie die Grenze liegt, ab wann eine Person als groß gilt, so wird man keinen eindeutigen Grenzwert erhalten. Für manche beginnt groß schon bei 1,75m, für andere erst bei 1,85m. In der Fuzzy Logik kann diese unscharfe Grenze mit der Mitgleidsgradfunktion ausgedrückt werden. Abbildung 3.9 zeigt einen solchen Verlauf für die Zugehörigkeit zur Menge der großen Personen. Die Mitgliedsgradfunktion ordnet z.B. eine Person die 1,85m groß ist, mit dem Grad 0,8 zur Menge der großen Personen zu. 

\includegraphics{bilder/ki/koerpergroesse.eps}
Abbildung: Beispiel für die Definition einer Fuzzy Menge. Gezeigt wird die Zuordnung zur Menge der großen Personen mit Hilfe der Mitgliedsgradfunktion.

Gerald Reif

2000-02-01