1 Einleitung
Machine learning verändert unsere Zivilisation dramatisch. Wir verlassen uns immer mehr auf effiziente Algorithmen, weil die Komplexität unserer zivilisatorischen Infrastruktur sonst nicht zu bewältigen wäre: Unsere Gehirne sind zu langsam und bei den anstehenden Datenmengen hoffnungslos überfordert. Aber wie sicher sind KI-Algorithmen? Bei der praktischen Anwendung beziehen sich Lernalgorithmen auf Modelle neuronaler Netze, die selber äußerst komplex sind. Sie werden mit riesigen Datenmengen gefüttert und trainiert. Die Anzahl der dazu notwendigen Parameter explodiert exponentiell. Niemand weiß genau, was sich in diesen „Black Boxes“ im Einzelnen abspielt. Es bleibt häufig nur ein statistisches Trial-and-Error Verfahren. Tatsächlich beruht Machine learning weitgehend auf Anwendungen einer statistischen Lerntheorie, deren Stärken und Schwächen im folgenden Artikel zunächst gezeigt werden.
Wie sollen dann aber Verantwortungsfragen wie z. B. Haftung beim autonomen Fahren oder in der Medizin entschieden werden? Dazu benötigen wir mehr kausale Erklärung (explainability) und Zurechnung (accountability) von Ursachen und Wirkungen, um ethische und rechtliche Fragen der Verantwortung entscheiden zu können. Im zweiten Teil werden daher erste Schritte einer kausalen Lerntheorie erklärt, die Grundlage von kausalen Lernalgorithmen sind. Erkenntnistheoretisch könnten sich kausale Lernalgorithmen als erste Schritte von einer schwachen (statistischen) KI zu einer starken KI erweisen, in der kausales Denken maschinell realisiert wird.
2 Grundlagen statistischen Lernens
Was bedeuten probabilistisches Schließen und Lernen? Die Wahrscheinlichkeitstheorie geht vom Modell eines Zufallsexperiments aus. Mathematisch wird dazu ein Wahrscheinlichkeitsraum angenommen, wobei Ω die Menge aller Ergebnisse des Zufallsexperiment,
die Menge der Ereignisse A ⊆ Ω und P das Maß ist, das jedem Ereignis eine Wahrscheinlichkeit zuordnet. Probabilistisches Schließen versucht, Eigenschaften der Resultate von Zufallsexperimenten aus der gegebenen mathematischen Struktur
abzuleiten. Probabilistisches Lernen versucht, Eigenschaften des zugrunde gelegten statistischen Modells aus den Resultaten (Daten) des Experiments abzuleiten.
Beim probabilistischen bzw. statistischen Lernen sollen also Abhängigkeiten und Zusammenhänge aus Beobachtungsdaten durch Algorithmen abgeleitet werden. Dazu können wir uns ein naturwissenschaftliches Experiment vorstellen, bei dem in einer Serie von veränderten Versuchsbedingungen (Inputs) entsprechende Ergebnisse (Outputs) folgen. In der Medizin könnte es sich um einen Patienten handeln, der auf Medikamente in bestimmter Weise reagiert. Dabei nehmen wir an, dass die entsprechenden Paare von Input- und Outputdaten unabhängig durch dasselbe unbekannte Zufallsexperiment erzeugt werden. Statistisch sagt man deshalb, dass die endliche Folge von Beobachtungsdaten (x1, y1), …, (xn, yn) mit Inputs xi und Outputs yi (i = 1, …, n) durch Zufallsvariablen (X1, Y1), …, (Xn, Yn) realisiert wird, denen eine unbekannte Wahrscheinlichkeitsverteilung PX, Y zugrunde liegt.
Algorithmen sollen nun Eigenschaften der Wahrscheinlichkeitsverteilung PX, Y ableiten. Ein Beispiel wäre die Erwartungswahrscheinlichkeit, mit der für einen gegebenen Input ein entsprechender Output auftritt. Es kann sich aber auch um eine Klassifikationsaufgabe handeln: Eine Datenmenge soll auf zwei Klassen aufgeteilt werden. Mit welcher Wahrscheinlichkeit gehört ein Element der Datenmenge (Input) eher zu der einen oder anderen Klasse (Output)? Wir sprechen in diesem Fall auch von binärer Mustererkennung.
In technisch-mathematischer Sprache heißt das: Gegeben seien die Beobachtungsdaten (x1, y1), …, (xn, yn) mit Inputs und
(1 ≤ i ≤ n). Die metrischen Räume
and
sind mit einer Borel σ-Algebra versehen. Wir nehmen an, dass jedes Paar (xi, yi) durch dasselbe unbekannte Zufallsexperiment unabhängig erzeugt wird, d. h. es handelt sich um Realisierungen von Zufallsvariablen (X1, Y1), …, (Xn, Yn) i. i. d. (independent and identically distributed) mit Verbundwahrscheinlichkeit PX, Y und Maßfunktion
. Es geht nun darum, Eigenschaften der Verbundwahrscheinlichkeit PX, Y abzuleiten.
Ein Beispiel ist die Berechnung der Erwartungswahrscheinlichkeit des Outputs bei gegebenem Input x mit
(Regression). Ein weiteres Beispiel ist die binäre Klassifikation von Mustern. Beim Erkennen eines binären Musters werden die Daten einer Datenmenge
auf zwei mögliche Klassen verteilt, die mit +1 bzw. −1 bezeichnet werden. Diese Zuordnung wird durch eine Funktion
mit
beschrieben. Beim statistischen Lernen eines binären Musters geht es darum, aus einer Klasse
von Funktionen diejenige Zuordnung f zu ermitteln, bei der die Fehlerabweichung bzw. der erwartete Irrtum minimal ist. Wir sprechen auch von der Risikominimierung des statistischen Lernens (Peters et al. 2017, S. 6 f.).




![$$ R\left[f\right]=\int \frac{1}{2}\left|f(x)-y\right|\ d{P}_{X,Y}\left(x,y\right). $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_Equb.png)

![$$ {R}_{emp}^n\left[f\right]=\frac{1}{n}{\sum}_{i=1}^n\frac{1}{2}\left|f\left({x}_i\right)-{y}_i\right|. $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_Equc.png)
„Die überragende Leistung des Elementarteilchenbeschleunigers LHC (Large Hadron Collider) und moderne Machine Learning Technik ermöglichten es, die Kopplung des Higgs Bosons mit den schwersten Fermionen zu identifizieren. Damit wird erklärt, warum es Masse im Universum gibt.“
Das Standardmodell der Elementarteilchenphysik erklärt, dass das Higgs Boson H in zwei Bottom Quarks b in Verbindung mit einem Z Boson zerfällt, das in Elektron e− und ein Antielektron e+ zerfällt. Dieses Ereignis muss unter Milliarden von Daten (Big Data) identifiziert werden, die durch Proton-Proton Kollisionen erzeugt werden. Dabei handelt es sich um ein Beispiel der Mustererkennung und Klassifikation in der Elementarteilchenphysik. Dazu müssen Signalereignisse s wie z. B. der Zerfall des Higgs-Bosons H→τ+τ− von Hintergrundereignissen h unterschieden werden.

Statistische Mustererkennung in der Elementarteilchenphysik. (Radovic et al. 2018)

Da die Wahrscheinlichkeitsdichten im allgemeinen unbekannt sind, ist λ(x) nicht berechenbar. Allerdings könnten endliche Samples mit Trainingsdaten durch Monte Carlo Methoden berechnet werden. Ziel sind Algorithmen des Machine learning, um eine Funktion y(x) zu finden, die am besten das Likelihood Verhältnis λ(x) für die Musterselektion der Signalereignisse approximiert.
Bei der Risikominimierung wird eine Folge von Funktionen der Klasse mit verbessertem Trainingsirrtum erzeugt. Die zentrale Frage ist, ob durch dieses Verfahren eine Mustererkennung mit einer minimal möglichen Fehlerabweichung ermittelt werden kann. Mathematisch ist zu klären, ob die so ermittelte Funktionenfolge in der Klasse
gegen eine Funktion mit minimaler Fehlerabweichung konvergiert. Man spricht auch von der Konsistenz induktiver Risikominimierung, falls eine Folge von Funktionen erzeugt wird, deren Risiko gegen das kleinste mögliche Risiko konvergiert, das in der Funktionenklasse
mit n → ∞ möglich ist.
Tatsächlich lässt sich beweisen, dass eine solche Konvergenz bzw. ein solcher Lernerfolg nur für kleine Teilklassen garantiert ist. Ein Beispiel ist die Vapnik-Chervonenkis (VC) Dimension, mit der sich die Kapazität und Größe solcher Funktionenklassen bestimmen lässt (Vapnik 1998). Mit großer Wahrscheinlichkeit ist dann das Risiko nicht größer als das empirische Risiko (plus einem Term, der mit der Größe der Funktionenklasse wächst.)
![$$ {R}_{\mathrm{em}}^n\left[f\right] $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_IEq22.png)

![$$ {\lim}_{n\to \infty }P\left(|R\left[f\right]-{R}_{\mathrm{em}}^n\left[f\right]|>\varepsilon \right)=0 $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_Eque.png)
![$$ {R}_{\mathrm{em}}^n\left[f\right] $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_IEq24.png)

![$$ {\lim}_{n\to \infty}\left({\sup}_{f\in \mathrm{\mathcal{F}}}\left(R\left[f\right]-{R}_{\mathrm{em}}^n\left[f\right]>\varepsilon \right)\right)=0\, \mathrm{f}\ddot{\mathrm{u}} \mathrm{r}\ \mathrm{alle}\, \varepsilon >0. $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_Equf.png)
Diese Eigenschaft hängt ab von der Funktionenklasse . Daher stellt sich als nächstes die Frage, wie groß die Funktionenklasse
gewählt werden kann. Nicht jede Funktion
garantiert nämlich Konsistenz:
Sei f∗ eine Funktion mit f(xi) = yi auf dem Sample (x1, y1), …, (xn, yn) und f∗∗ eine Funktion, die mit f∗nur auf diesem Sample übereinstimmt and sonst nicht. Falls die Verteilung PX, Y eine Dichte besitzt, dann ist die Wahrscheinlichkeit, auf irgendeinen Trainingspunkt in der Zukunft exakt zu treffen, Null. Daraus folgt, dass f∗und f∗∗ fast immer nicht übereinstimmen werden. Für das uniforme Gesetz der großen Zahl folgt daraus: Immer wenn ein f∗ mit kleiner Differenz (R[f∗] − gefunden wurde, dann lässt sich eine Funktion f∗∗ mit großer Differenz (R[f∗∗] −
angeben. Daher ist uniforme Konvergenz für die gesamte Funktionenklasse
unmöglich.
Das uniforme Gesetz der großen Zahl lässt sich allerdings für eine kleinere Funktionenklasse als
anwenden. Als Maß der Größe der Funktionenklasse lässt sich die VC (Vapnik-Chervonenkis) Dimension heranziehen. Gelegentlich stimmt sie mit der Anzahl der freien Parameter von
überein. Falls die VC (Vapnik-Chervonenkis) Dimension von
endlich ist, dann ist die Konsistenz der empirischen Risikominimierung für jedes PX, Y garantiert (Vapnik 1998).

![$$ R(f)\le {R}_{\mathrm{em}}^n\left[f\right]+\sqrt{\frac{h\left(\log \left(\frac{2n}{h}\right)+1\right)-\log \left(\frac{\delta }{4}\right)}{n}}, $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_Equg.png)

![$$ {R}_{\mathrm{em}}^n\left[f\right] $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_IEq38.png)
Die Erfolge des Machine learning in Technik und Wirtschaft basieren auf großen Datensets (BIG DATA) und Rechenkapazität, mit denen diese Methoden trainiert werden können. Induktive Methoden des statistischen Lernens liefern aber nur Regularitäten von Wahrscheinlichkeitsverteilungen. Zugrundeliegende kausale Regularitäten erfordern zusätzliche mathematische Strukturen.
3 Grundlagen kausalen Lernens
Datenkorrelationen können Hinweise auf kausale Zusammenhängen liefern, müssen es aber nicht. Stellen wir uns eine Testreihe vor, bei der sich eine günstige Korrelation zwischen einer verabreichten chemischen Substanz und der Bekämpfung bestimmter Krebstumore ergibt. Dann entsteht Druck des betroffenen Unternehmens, mit einem entsprechenden Medikament in die Produktion zu gehen und Gewinne abzuschöpfen. Aber auch betroffene Patienten mögen darin ihre letzte Chance sehen. Tatsächlich erhalten wir ein nachhaltiges Medikament aber nur, wenn wir den zugrunde liegen kausalen Mechanismus des Tumorwachstums, also die Gesetze der Zellbiologie und Biochemie verstanden haben.
Bereits Newton war kaum an Datenkorrelationen der fallenden Äpfel von den Apfelbäumen seines väterlichen Bauernhofs interessiert. Diese populäre Geschichte hatte Voltaire in die Welt gesetzt. Newton war vielmehr an dem zugrunde liegenden mathematischen Kausalgesetz der Gravitation interessiert, mit dem genaue Erklärungen und Prognosen der fallenden Äpfel und der Himmelskörper möglich wurden, letztlich auch die darauf aufbauende heutige Satelliten- und Raketentechnik. Dazu leitete er mathematische Schlüsse auf der Grundlage von Keplers Planetengesetzen und einer angenommenen Gravitationskraft ab.
Die Auseinandersetzung zwischen probabilistischem und kausalem Denken ist keineswegs neu, sondern wurde erkenntnistheoretisch bereits in der Philosophie des 18. Jahrhunderts zwischen David Hume (1711–1776) und Immanuel Kant (1724–1804) ausgefochten. Nach Hume beruht alle Erkenntnis auf sinnlichen Eindrücken (Daten), die psychologisch „assoziiert“ werden. Es gibt danach keine Kausalitätsgesetze von Ursache und Wirkung, sondern nur Assoziationen von Eindrücken (z. B. Blitz und Donner), die mit (statistischer) Häufigkeit „gewohnheitsmäßig“ korreliert werden (Hume 1993). Nach Kant sind Kausalitätsgesetze als vernunftmäßig gebildete Hypothesen möglich, die experimentell überprüft werden können. Ihre Bildung beruht nicht auf psychologischen Assoziationen, sondern auf der vernunftmäßigen Kategorie der Kausalität (Kant 1900 ff.), die mithilfe der Einbildungskraft für Vorhersagen auf der Grundlage von Erfahrung operationalisiert werden kann. Nach Kant ist dieses Verfahren seit Galileo Galilei in der Physik in Gebrauch, die so erst zur Wissenschaft wurde.
Statistisches Lernen und Schließen aus Daten reichen also nicht aus. Wir müssen vielmehr die kausalen Zusammenhänge von Ursachen und Wirkungen hinter den Messdaten erkennen. Diese kausalen Zusammenhänge hängen von den Gesetzen der jeweiligen Anwendungsdomäne unserer Forschungsmethoden ab, also den Gesetzen der Physik im Beispiel von Newton, den Gesetzen des Standardmodells der Elementarteilchenphysik, aus denen der theoretische Physiker Higgs die Existenz des Higgs-Teilchens gefolgert hatte, den Gesetzen der Biochemie und des Zellwachstums im Beispiel der Krebsforschung, etc. Wäre es anders, könnten wir mit den Methoden des statistischen Lernens und Schließen bereits die Probleme dieser Welt lösen. Tatsächlich scheinen das einige kurzsichtige Zeitgenossen beim derzeitigen Hype der Künstlichen Intelligenz zu glauben.
Statistisches Lernen und Schließen ohne kausales Domänenwissen ist aber blind – bei noch so großer Datenmenge (Big Data) und Rechenpower. Neben der Statistik der Daten bedarf es zusätzlicher Gesetzes- und Strukturannahmen der Anwendungsdomänen, die durch Experimente und Interventionen überprüft werden. Kausale Erklärungsmodelle (z. B. das Planetenmodell Newtons, das Standardmodell von Higgs oder ein Tumormodell) erfüllen die Gesetzes- und Strukturannahmen einer Theorie (z. B. die Gravitationstheorie, die Elementarteilchenphysik oder die Gesetze der Zellbiologie).

Statistisches und kausales Lernen. (Peters et al. 2017, S. 6, nach Abb. 1.1)
Ein strukturelles Kausalmodell besteht aus einem System von strukturellen Zuordnungen von Ursachen zu Wirkungen mit eventuellen Störvariablen. Ursachen und Wirkungen werden durch Zufallsvariablen beschrieben. Ihre funktionalen Zuordnungen (unter Berücksichtigung von Störvariablen) werden durch Gleichungen definiert, also z. B. Wirkung Xj = f(Xi, N) in funktioneller Abhängigkeit von Ursache Xi und Störvariable N. Anschaulich kann das Netzwerk der Ursachen und Wirkungen durch einen Graphen von Knoten und Kanten dargestellt werden. Zufallsvariablen von Ursachen und Wirkungen entsprechen Knoten. Kausale Wirkungen entsprechen gerichteten Pfeifen: Xi →Xj bedeutet, dass Ursache Xi Wirkung Xj auslöst.
Es lässt sich beweisen, dass ein Kausalmodell eine eindeutige Wahrscheinlichkeitsverteilung der Daten einschließt (Abb. 2: „subsumiert“), aber nicht umgekehrt: Für Kausalmodelle (z. B. Planetenmodell) müssen zusätzliche Gesetze (z. B. Gravitationsgesetz) angenommen werden (Mooij et al. 2013). Um kausale Abhängigkeiten und Unabhängigkeiten von Ereignissen zu erkennen, muss die Abhängigkeit und Unabhängigkeit der sie darstellenden Zufallsvariablen ermittelt werden. Statistisch lässt sich die Unabhängigkeit der Resultate x und y zweier Zufallsvariablen (anschaulich Zufallsexperimente) X und Y dadurch ausdrücken, dass ihre Verbundwahrscheinlichkeit p(x, y) faktorisierbar ist, d. h. p(x, y) = p(x)p(y). Man spricht in diesem Fall auch von der Markov-Bedingung. Auf dieser Grundlage lässt sich der Kalkül einer kausalen Unabhängigkeitsrelation ⫫ einführen (Pearl 2009):





Die Unabhängigkeit von Zufallsvariablen lässt sich in einem Test prüfen: Sei ein endliches Sample (X1, Y1), …, (Xn, Yn) ~ iid PX, Y gegeben. Sind die zugrunde liegenden Zufallsvariablen unabhängig oder nicht? Da es Zufallsfluktuationen von unabhängigen Messungen gibt, führt man statistische Hypothesentests mit einer Nullhypothese H0 : X ⫫ Y und der entsprechenden Alternativhypothese HA : nicht X ⫫ Y durch.

Für jedes P, das die Nullhypothese H0 erfüllt, gilt P(Tn > c) ≤ α mit Signifikanzstufe α des Tests (spezifiziert durch den Nutzer). Falls Tn > c ist, wird die Nullhypothese H0 zurückgewiesen und Entscheidung HA ist (relativ) korrekt. Andernfalls wird die Nullhypothese H0 nicht zurückgewiesen (was aber nicht viel bedeuten muss): Zum Beispiel könnte die Größe n des Samples zu klein sein, um die Abhängigkeit zwischen X und Y zu entdecken.








Allgemein besteht ein strukturelles Kausalmodell (SCM) ) aus einer Menge S von d strukturellen Zuordnungen Xj ≔ fj(PAj, Nj)(j = 1, …, d) mit PAj ⊆ {X1, …, Xd} ∖ {Xj} Eltern von Xj und eine Verbundwahrscheinlichkeit PN über die (gemeinsam unabhängigen) Störvariablen N = N1, …, Nd. Der Graph
von SCM wird durch Knoten für jedes Xj und gerichtete Kanten von jedem Elternknoten in PAj zu Xj erzeugt. Xj wird direkte Wirkung der Elemente von PAj als direkten Ursachen von Xj genannt.

- (i)
ik ∈ S und ik − 1 ⟶ ik ⟶ ik + 1 oder ik − 1 ⟵ ik ⟵ ik + 1 oder ik ⟵ ik ⟶ ik + 1
- (ii)
weder ik noch irgendeiner seiner Nachkommen ist in S und ik − 1 ⟶ ik ⟵ ik + 1.
In einem gerichteten azyklischen Graphen DAG sind zwei disjunkte Knotenteilmengen A and B durch eine dritte disjunkte Teilmenge S d-separiert genau dann, wenn jeder Pfad zwischen Knoten in A and B durch S blockiert ist (A
B | S ).
- a)die Markov Bedingung für DAG
genau dann, wenn
i.e. d-Separation impliziert bedingte Unabhängigkeit für alle disjunkten Knotenmengen A, B, C.
- b)die Markov Faktorisierungseigenschaft bzgl. DAG
genau dann, wenn
- c)
die Treuebedingung bzgl. DAG
genau dann, wenn

Es gibt Markov-Verteilungen, die nicht treu sind.
Erkenntnistheoretisch hatte Kant nur postuliert, dass Kausalmodelle möglich und zur Erklärung von Sachverhalten notwendig seien. Welche Annahmen müssen aber Kausalmodelle erfüllen, um kausale Abläufe als kausale Graphen von Ursachen und Wirkungen in einer statistischen Datenverteilung zu identifizieren? Eine Wahrscheinlichkeitsverteilung PX für Zufallsvariablen X = (X1, …, Xd) kann verschiedene Kausalmodelle einschließen. Falls ein vollständiger direkter azyklischer Graph DAG von Ursache- und Wirkungsketten gegeben ist, lässt sich ein entsprechendes strukturelles Kausalmodell SCM angeben, das die entsprechende Wahrscheinlichkeitsverteilung PX einschließt.
Falls die Verteilungsfunktion PX Markov und treu bzgl. des zugrunde liegenden gerichteten azyklischen Graphen (DAG) ist, liegt eine Eins-zu-Eins Korrespondenz zwischen Statements der d-Separation im Graphen
und entsprechenden Statements der bedingten Unabhängigkeit in der Wahrscheinlichkeitsverteilung vor. Alle Graphen außerhalb der korrekten Markov-Äquivalenzklasse von
können deshalb zurückgewiesen werden, da sie eine Menge von d-Separationen beinhalten, die nicht der Menge bedingter Unabhängigkeiten in PX gleicht. Da beide Markov- und Treuebedingung nur den bedingten Unabhängigkeiten in der Verbundverteilung Beschränkungen auferlegen, ist klar, dass nicht zwischen zwei Markov-äquivalenten Graphen unterschieden werden kann, also zwischen zwei Graphen, die dieselbe Menge von bedingten Unabhängigkeiten einschließen. Zusammengefasst: Unter der Markov- und Treue-Bedingung ist die Markov-Äquivalenzklasse von Graph
in der Wahrscheinlichkeitsverteilung PX identifizierbar.
Eine gegebene Wahrscheinlichkeitsverteilung könnte von mehreren strukturellen Kausalmodellen SCM mit verschiedenen kausalen Graphen eingeschlossen werden. Ob und welche kausalen Prozesse (dargestellt als gerichtete azyklische Graphen DAG) identifiziert werden können, hängt von strukturellen Annahmen des Kausalmodells ab. Die Annahmen betreffen die Art der Zuordnungsfunktionen in den Gleichungen des strukturellen Kausalmodells, die z. B. linear oder nicht linear sein können. Hinzu kommen Annahmen über die Störvariablen, die von Gaußschem Rauschen oder Nicht-Gaußschem Rauschen bestimmt sein können.






Sätze über die Identifizierung von kausalen Graphen
Typen von strukturellen Modellen | Typen von Gleichungen | Bedingungen von Funktionen | Beweise von eindeutig identifizierbaren kausalen Graphen |
---|---|---|---|
Strukturelle Kausalmodelle SCM (allgemein) | − | nein | |
Modelle ANM mit zusätzlichen Störvariablen | nichtlinear | ja | |
Kausalmodelle Modelle CAM mit zusätzlichen Störvariablen | nichtlinear | ja | |
Modelle mit linearer Gaußverteilung | linear | nein | |
Modelle mit linearer Gaußverteilung und gleicher Irrtumsvarianz | linear | ja |
3.1 Beweise von Kausalstrukturen
Unabhängigkeits-basierte Methoden (wie z. B. der induktive Kausalitätsalgorithmus) nehmen an, dass die Wahrscheinlichkeitsverteilung treu bgl. des zugrunde liegenden gerichteten azyklischen Graphen DAG ist. Es gibt eine Eins-zu-Eins Korrespondenz zwischen d-Separation im Graph und bedingten Unabhängigkeiten in der Wahrscheinlichkeitsverteilung PX. Jede Abfrage einer Behauptung über d-Separation im Graphen kann daher durch Prüfung des entsprechenden Tests bedingter Unabhängigkeit in der Wahrscheinlichkeitsverteilung beantwortet werden.



Von Datenerhebungen zu Kausalmodellen. (Peters et al. 2017, S. 144, nach Abb. 7.1)

In einem nächsten Schritt müssen Unabhängigkeitsstatements (als d-separierte Statements) in Formeln mit Booleschen Variablen und logischen Operatoren wie „und“ „oder“ übersetzt werden. Das Erfüllbarkeitsproblem (SAT) fragt dann, ob ein Wert „wahr“ oder „falsch“ jeder Booleschen Variablen derart zugeordnet werden kann, dass die gesamte Formel wahr wird.
Die d-Separation Statements können durch verschiedene Graphenstrukturen erfüllt werden, die verschiedenen Zuordnungen entsprechen. Falls in allen diesen Zuordnungen die Boolesche Variable A den Wert „wahr“ annimmt, lässt sich ableiten, dass X in dem zugrunde liegenden Graph ein Elternknoten von Y sein muss.
Man könnte versuchen, das SAT-Problem in einem brute force-Verfahren für alle Möglichkeiten durchzutesten. In diesem Sinn erweist sich aber das Boolesche SAT Problem als NP-vollständig (Cook 1971), d. h. seine Lösung wäre gleichbedeutend mit der Lösung aller NP-Probleme, deren Lösung für polynomiale Rechenzeit eine nicht-deterministische Turing-Maschine erfordert. Es ist also ein praktisch unlösbares Problem. Es gibt aber heuristische Algorithmen, die Spezialfälle von großen Problemen mit Millionen von Variablen lösen können.
Erkenntnistheoretisch zeigt die NP-Vollständigkeit des SAT-Problems, dass es allgemein keinen praktikablen Algorithmus geben kann, um für beliebige Wahrscheinlichkeitsverteilungen von Daten eine dahinterliegende Kausalstruktur zu finden. Das wäre ja auch zu schön: Dann könnte Machine Learning und Künstliche intelligenz die Arbeit kreativer Wissenschaftler vollständig übernehmen. Allerdings können Wissenschaftler auf der Suche nach Kausalerklärungen durch Algorithmen des kausalen Lernens unterstützt werden. Unter bestimmten Annahmen der unterstellten Kausalmodelle garantieren sie nämlich mathematisch die Existenz passender Kausalerklärungen, die durch kausale Graphen dargestellt werden können.
Erkenntnistheoretisch (im Sinne von Kant) bedeutet das: Wir können zwar nicht „durch reines Nachdenken“ (a priori) die Kausalität der Welt erkennen. Dafür gibt es keinen allgemeinen Algorithmus. Kants Kategorie der Kausalität umfasst also zunächst nur eine unbestimmte Klasse von möglichen Kausalitätsmodellen, die den beobachtbaren Sachverhalten und Prozessen in der Welt unterstellt werden kann. Unter konkreten Einschränkungen und Annahmen diese Kausalitätsmodelle lassen sich aber Kausalerklärungen mit entsprechenden kausalen Graphen mathematisch („a priori“) beweisen. Konkret könnten wir uns vorstellen, dass solche Algorithmen des kausalen Lernens nicht nur statistische Muster und Korrelationen von empirischen Daten (wie beim statistischen Lernen) erkennen, sondern dem Wissenschaftler Vorschläge über mögliche Kausalerklärungen machen. Diese theoretisch möglichen Erklärungen müssten dann allerdings noch in Experimenten, Messungen und Beobachtungen empirisch („a posteriori“) überprüft werden.
Statistisches Lernen ist erkenntnistheoretisch nur schwache Künstliche Intelligenz: Jeder einfache Organismus der Natur ändert auf der Grundlage von statistisch mehrfachen (aber endlich vielen) negativen Erfahrungen (Output) von bestimmten Aktionen (Input) sein Verhalten: Zum Beispiel zieht eine Schnecke nach einigen vergeblichen Versuchen, über ein Hindernis zu kriechen, ihre Fühler ein und ändert die Bewegungsrichtung. Ziel des kausalen Lernens ist es aber, hinter der statistischen Verteilung von Mess- und Beobachtungsdaten die kausalen Abhängigkeiten von Ursachen und Wirkungen zu entdecken. Das sind erste Schritte von starker künstlicher Intelligenz, wie wir sie vor allem beim Menschen (und anderen hoch entwickelten Tieren) vorfinden. (Ausgangssituation ist ein endliches Sample einer Datenerhebung: In Abb. 2 wird dazu eine Verbundwahrscheinlichkeit (z. B. ) von unabhängig und identisch verteilten (i. i. d. = independent and identically distributed)) Zufallsvariablen (z. B. X1, X2, X3, X4) vorausgesetzt. Durch Unabhängigkeitstests und Experimente lassen sich daraus Kausalmodelle ableiten, die durch Unabhängigkeitsrelationen bzw. wahrscheinlichkeitstheoretische Faktorisierung oder Kausalgesetze bestimmt sind. Auf der Grundlage solcher Kausalmodelle lassen sich die Abhängigkeiten von Ursachen und Wirkungen grafisch darstellen. Damit wird die eingangs geforderte Zuordnung (accountability) von Ursachen und Wirkungen erst möglich, die zur Klärung von Verantwortungsfragen (responsibility) notwendig ist.
Wegen dieser Explosion von Parametern führt die Komplexität praktischer Anwendungen zu einer dramatischen Herausforderung des statistischen Machine learning, die häufig unterschätzt wird. Hier werden die Strategien des kausalen Lernens entscheidend.
4 Beispiel: Statistisches und kausales Lernen in der Astronomie

Exoplanet mit periodisch wechselnder Helligkeit bei der Umrundung seiner Sonne. (Nach N. Smolenski: https://en.wikipedia.org./wiki/File:Planetary_transit.avg.[CCBY-SA 3.0])
Das Signal von Interesse Q (z. B. periodische Abnahme der Lichtintensität eines Sterns verursacht durch einen umlaufenden Planeten) kann nur in einer verrauschten Version Y gemessen werden (Abb. 4). Falls dieselbe Störquelle auch die Messungen von anderen Signalen unabhängig von Q stört (z. B. Lichtjahre voneinander entfernte Sterne), dann können diese Messungen zum „Entrauschen“, also zur Vernachlässigung der Messstörungen verwendet werden. Dabei ist das verwendete Beobachtungsteleskop N die systematische Störquelle für die Messungen X und Y von unabhängigen Lichtkurven. Dieses Teleskop misst mehrere Sterne zur gleichen Zeit. Sie können als statistisch unabhängig angenommen werden, da sie Lichtjahre voneinander entfernt sind und nach der Relativitätstheorie Einsteins keine Wirkungen schneller als Licht übertragen werden können.
![$$ \mathbb{E}\left[Y|X\right] $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_IEq67.png)
![$$ \hat{Q}:= Y-\mathbb{E}\left[Y|X\right]. $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_Equab.png)

Die Kausalstruktur, die bei der Suche nach Exoplaneten angewendet wird. (Nach Peters et al. 2017, S. 158)
![$$ \hat{Q}:= Y-\mathbb{E}\left[Y|X\right] $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_IEq68.png)
![$$ \mathbb{E}\left[\ {\left(Q-E\left[Q\right]-\hat{Q}\right)}^2\right]\le \mathbb{E}\left[\ {\left(Q-E\left[Q\right]-\left(Y-E\left[Y\right]\right)\right)}^2\right]. $$](../images/446753_1_De_51_Chapter/446753_1_De_51_Chapter_TeX_Equac.png)
5 Beispiel: Statistisches und kausales Lernen in der Gehirnforschung


Dazu wird die gemessene Zeitreihe des BOLD Signals y = λ(x) mit der Zustandsvariablen x verbunden.
Tatsächlich haben wir es beim menschlichen Gehirn mit einer Datenflut zu tun, die durch 86 Milliarden Neuronen hervorgebracht wird. Wie im Einzelnen die kausalen Wechselwirkungen zwischen den Neuronen hinter diesen Datenwolken ablaufen, bleibt vorläufig weiterhin eine Black Box. Statistisches Lernen aus gemessenen Daten reicht aber auch im Zeitalter von Big Data und wachsender Rechenpower nicht aus. Mehr Erklärung der kausalen Wechselwirkungen zwischen den einzelnen Gehirnregionen, also kausales Lernen, ist eine zentrale Herausforderung der Gehirnforschung, um bessere medizinische Diagnose, psychologische und rechtliche Zurechnungsfähigkeit zu erhalten (Lohmann et al. 2012). Dazu vergleiche auch den Artikel über Verifikation und Sicherheit für neuronale Netze in diesem Handbuch.
6 Beispiel: Statistisches und kausales Lernen in Mobilitätsnetzen
Ein hochaktuelles technisches Beispiel für die wachsende Komplexität neuronaler Netze sind selbst-lernende Fahrzeuge. So kann ein einfaches Automobil mit verschiedenen Sensoren (z. B. Nachbarschaft, Licht, Kollision) und motorischer Ausstattung bereits komplexes Verhalten durch ein sich selbst organisierendes neuronales Netzwerk erzeugen. Werden benachbarte Sensoren bei einer Kollision mit einem äußeren Gegenstand erregt, dann auch die mit den Sensoren verbundenen Neuronen eines entsprechenden neuronalen Netzes. So entsteht im neuronalen Netz ein Verschaltungsmuster, das den äußeren Gegenstand repräsentiert. Im Prinzip ist dieser Vorgang ähnlich wie bei der Wahrnehmung eines äußeren Gegenstands durch einen Organismus – nur dort sehr viel komplexer.
Wenn wir uns nun noch vorstellen, dass dieses Automobil mit einem „Gedächtnis“ (Datenbank) ausgestattet wird, mit dem es sich solche gefährlichen Kollisionen merken kann, um sie in Zukunft zu vermeiden, dann ahnt man, wie die Automobilindustrie in Zukunft unterwegs sein wird, selbst-lernende Fahrzeuge zu bauen. Sie werden sich erheblich von den herkömmlichen Fahrerassistenzsystemen mit vorprogrammiertem Verhalten unter bestimmten Bedingungen unterscheiden. Es wird sich um ein neuronales Lernen handeln, wie wir es in der Natur von höher entwickelten Organismen kennen.
Wie viele reale Unfälle sind aber erforderlich, um selbstlernende („autonome“) Fahrzeuge zu trainieren? Wer ist verantwortlich, wenn autonome Fahrzeuge in Unfälle verwickelt sind? Welche ethischen und rechtlichen Herausforderungen stellen sich? Bei komplexen Systemen wie neuronalen Netzen mit z. B. Millionen von Elementen und Milliarden von synaptischen Verbindungen erlauben zwar die Gesetze der statistischen Physik, globale Aussagen über Trend- und Konvergenzverhalten des gesamten Systems zu machen. Die Zahl der empirischen Parameter der einzelnen Elemente ist jedoch unter Umständen so groß, dass keine lokalen Ursachen ausgemacht werden können. Das neuronale Netz bleibt für uns eine „Black Box“. Vom ingenieurwissenschaftlichen Standpunkt aus sprechen Autoren daher von einem „dunklen Geheimnis“ im Zentrum der KI des Machine Learning: „… even the engineers who designed [the machine learning-based system] may struggle to isolate the reason for any single action“ (Knight 2017).
- 1.
Testen zeigt nur (zufällig) gefundene Fehler, aber nicht alle anderen möglichen.
- 2.
Zur grundsätzlichen Vermeidung müsste eine formale Verifikation des neuronalen Netzes und seiner zugrunde liegenden kausalen Abläufe durchgeführt werden.

Kausales Lernen selbstlernender Fahrzeuge nach der Verkehrsordnung. (Quelle: eigene Zeichnung)
In einem ersten Schritt wird das Automobil wie z. B. ein Flugzeug mit einer Black Box ausgestattet, um die Fülle der Verhaltensdaten zu registrieren. Diese Datenmasse des Fahrverhaltens sollte aus entsprechenden Verkehrsregeln der Wiener Konvention logisch folgen. Diese logische Implikation (formal: ⊨ ) realisiert die gewünschte Kontrolle, um Fehlverhalten auszuschließen. Auf der Metaebene wird die Implikation formalisiert, um ihren Beweis durch einen Beweisassistenten zu automatisieren.
Dazu müsste zunächst das Rechtssystem der Wiener Konvention formalisiert werden. In einem nächsten Schritt müsste aus der Datenmasse der Black Box die Bewegungsbahn, also der kausale Bewegungsablauf des Fahrzeugs extrahiert werden. Dazu bietet sich das kausale Lernen an, das wir vorher erklärt haben. Der kausale Bewegungsablauf lässt sich grafisch in einer Kausalkette von Ursachen und Wirkungen als kausaler Graph repräsentieren. Diese Darstellung der Bahnkurve des Fahrzeugs müsste auf der Metaebene in einer formalen Sprache repräsentiert werden. Diese formale Beschreibung müsste von der formalisierten Wiener Konvention impliziert werden. Der formale Beweis dieser Implikation wird durch den Beweisassistenten automatisiert und wäre mit heutiger Rechenpower blitzschnell zu realisieren.
Zusammengefasst folgt: Machine Learning mit neuronalen Netzen funktioniert, aber wir können die Abläufe in den neuronalen Netzen nicht im Einzelnen verstehen und kontrollieren. Heutige Techniken des Machine Learning beruhen meistens nur auf statistischem Lernen, aber das reicht nicht für sicherheitskritische Systeme. Daher sollte Machine Learning mit Beweisassistenten und kausalem Lernen verbunden werden. Korrektes Verhalten wird dabei durch Metatheoreme in einem logischen Formalismus garantiert.
Dieses Modell selbst-lernender Fahrzeuge erinnert an die Organisation des Lernens im menschlichen Organismus: Verhalten und Reaktionen laufen dort ebenfalls weitgehend unbewusst ab. „Unbewusst“ heißt, dass wir uns der kausalen Abläufe des durch sensorielle und neuronale Signale gesteuerten Bewegungsapparats nicht bewusst sind. Das lässt sich mit Algorithmen des statistischen Lernens automatisieren. In kritischen Situationen reicht das aber nicht aus: Um mehr Sicherheit durch bessere Kontrolle im menschlichen Organismus zu erreichen, muss der Verstand mit kausaler Analyse und logischem Schließen eingreifen. Unser Ziel ist es, dass dieser Vorgang im Machine Learning durch Algorithmen des kausalen Lernens und logischen Beweisassistenten automatisiert wird.