K. Mainzer (Hrsg.)Philosophisches Handbuch Künstliche Intelligenzhttps://doi.org/10.1007/978-3-658-19606-6_51

Statistisches und kausales Lernen im Machine Learning

Klaus Mainzer¹

(1)

TUM Senior Excellence Faculty, Technische Universität München (TUM), München, Deutschland

Klaus Mainzer

Email: mainzer@tum.de

1 Einleitung

2 Grundlagen statistischen Lernens

3 Grundlagen kausalen Lernens

4 Beispiel: Statistisches und kausales Lernen in der Astronomie

5 Beispiel: Statistisches und kausales Lernen in der Gehirnforschung

6 Beispiel: Statistisches und kausales Lernen in Mobilitätsnetzen

Literatur

Zusammenfassung

Die praktischen Anwendungen des Machine Learning, die zum Hype der Künstlichen Intelligenz führten, beruhen weitgehend auf Algorithmen des statistischen Lernens. Statistisches Lernen ist aber nur eine Form schwacher künstlicher Intelligenz, die selbst von einfachen Organismen der Evolution realisiert wird. Kausales Lernen ermöglicht erste Schritte zu Algorithmen einer starken künstlichen Intelligenz.

Schlüsselwörter

Statistisches LernenMusterklassifikationStrukturelle KausalmodelleKausale GraphenKausales Lernen

1 Einleitung

Machine learning verändert unsere Zivilisation dramatisch. Wir verlassen uns immer mehr auf effiziente Algorithmen, weil die Komplexität unserer zivilisatorischen Infrastruktur sonst nicht zu bewältigen wäre: Unsere Gehirne sind zu langsam und bei den anstehenden Datenmengen hoffnungslos überfordert. Aber wie sicher sind KI-Algorithmen? Bei der praktischen Anwendung beziehen sich Lernalgorithmen auf Modelle neuronaler Netze, die selber äußerst komplex sind. Sie werden mit riesigen Datenmengen gefüttert und trainiert. Die Anzahl der dazu notwendigen Parameter explodiert exponentiell. Niemand weiß genau, was sich in diesen „Black Boxes“ im Einzelnen abspielt. Es bleibt häufig nur ein statistisches Trial-and-Error Verfahren. Tatsächlich beruht Machine learning weitgehend auf Anwendungen einer statistischen Lerntheorie, deren Stärken und Schwächen im folgenden Artikel zunächst gezeigt werden.

Wie sollen dann aber Verantwortungsfragen wie z. B. Haftung beim autonomen Fahren oder in der Medizin entschieden werden? Dazu benötigen wir mehr kausale Erklärung (explainability) und Zurechnung (accountability) von Ursachen und Wirkungen, um ethische und rechtliche Fragen der Verantwortung entscheiden zu können. Im zweiten Teil werden daher erste Schritte einer kausalen Lerntheorie erklärt, die Grundlage von kausalen Lernalgorithmen sind. Erkenntnistheoretisch könnten sich kausale Lernalgorithmen als erste Schritte von einer schwachen (statistischen) KI zu einer starken KI erweisen, in der kausales Denken maschinell realisiert wird.

2 Grundlagen statistischen Lernens

Was bedeuten probabilistisches Schließen und Lernen? Die Wahrscheinlichkeitstheorie geht vom Modell eines Zufallsexperiments aus. Mathematisch wird dazu ein Wahrscheinlichkeitsraum $\left(\varOmega, \mathcal{F},P\right)$ angenommen, wobei Ω die Menge aller Ergebnisse des Zufallsexperiment, $\mathcal{F}$ die Menge der Ereignisse A ⊆ Ω und P das Maß ist, das jedem Ereignis eine Wahrscheinlichkeit zuordnet. Probabilistisches Schließen versucht, Eigenschaften der Resultate von Zufallsexperimenten aus der gegebenen mathematischen Struktur $\left(\Omega, \mathcal{F},P\right)$ abzuleiten. Probabilistisches Lernen versucht, Eigenschaften des zugrunde gelegten statistischen Modells aus den Resultaten (Daten) des Experiments abzuleiten.

Beim probabilistischen bzw. statistischen Lernen sollen also Abhängigkeiten und Zusammenhänge aus Beobachtungsdaten durch Algorithmen abgeleitet werden. Dazu können wir uns ein naturwissenschaftliches Experiment vorstellen, bei dem in einer Serie von veränderten Versuchsbedingungen (Inputs) entsprechende Ergebnisse (Outputs) folgen. In der Medizin könnte es sich um einen Patienten handeln, der auf Medikamente in bestimmter Weise reagiert. Dabei nehmen wir an, dass die entsprechenden Paare von Input- und Outputdaten unabhängig durch dasselbe unbekannte Zufallsexperiment erzeugt werden. Statistisch sagt man deshalb, dass die endliche Folge von Beobachtungsdaten (x₁, y₁), …, (x_n, y_n) mit Inputs x_i und Outputs y_i (i = 1, …, n) durch Zufallsvariablen (X₁, Y₁), …, (X_n, Y_n) realisiert wird, denen eine unbekannte Wahrscheinlichkeitsverteilung P_{X, Y} zugrunde liegt.

Algorithmen sollen nun Eigenschaften der Wahrscheinlichkeitsverteilung P_{X, Y} ableiten. Ein Beispiel wäre die Erwartungswahrscheinlichkeit, mit der für einen gegebenen Input ein entsprechender Output auftritt. Es kann sich aber auch um eine Klassifikationsaufgabe handeln: Eine Datenmenge soll auf zwei Klassen aufgeteilt werden. Mit welcher Wahrscheinlichkeit gehört ein Element der Datenmenge (Input) eher zu der einen oder anderen Klasse (Output)? Wir sprechen in diesem Fall auch von binärer Mustererkennung.

In technisch-mathematischer Sprache heißt das: Gegeben seien die Beobachtungsdaten (x₁, y₁), …, (x_n, y_n) mit Inputs ${x}_i\in \mathcal{X}$ und ${y}_i\in \mathcal{Y}$ (1 ≤ i ≤ n). Die metrischen Räume $\mathcal{X}$ and $\mathcal{Y}$ sind mit einer Borel σ-Algebra versehen. Wir nehmen an, dass jedes Paar (x_i, y_i) durch dasselbe unbekannte Zufallsexperiment unabhängig erzeugt wird, d. h. es handelt sich um Realisierungen von Zufallsvariablen (X₁, Y₁), …, (X_n, Y_n) i. i. d. (independent and identically distributed) mit Verbundwahrscheinlichkeit P_{X, Y} und Maßfunktion $X:\Omega \to \mathcal{X}$ . Es geht nun darum, Eigenschaften der Verbundwahrscheinlichkeit P_{X, Y} abzuleiten.

Ein Beispiel ist die Berechnung der Erwartungswahrscheinlichkeit des Outputs $f(x)=\mathbb{E}\left[Y|X=x\right]$ bei gegebenem Input x mit $\mathcal{Y}=\mathbb{R}$ (Regression). Ein weiteres Beispiel ist die binäre Klassifikation von Mustern. Beim Erkennen eines binären Musters werden die Daten einer Datenmenge $\mathcal{X}$ auf zwei mögliche Klassen verteilt, die mit +1 bzw. −1 bezeichnet werden. Diese Zuordnung wird durch eine Funktion $f:\mathcal{X}\to \mathcal{Y}$ mit $\mathcal{Y}=\left\{\left.+1,-1\right\}\right.$ beschrieben. Beim statistischen Lernen eines binären Musters geht es darum, aus einer Klasse $\mathcal{F}$ von Funktionen diejenige Zuordnung f zu ermitteln, bei der die Fehlerabweichung bzw. der erwartete Irrtum minimal ist. Wir sprechen auch von der Risikominimierung des statistischen Lernens (Peters et al. 2017, S. 6 f.).

In technisch-mathematischer Sprache heißt das: Die binäre Musterklassifikation ordnet jedes x der Klasse mit größerer Wahrscheinlichkeit zu, also

$f(x)={\mathrm{argmax}}_{y\in \mathcal{Y}}P\left(Y=y|X=x\right)\ \mathrm{mit}\ \mathcal{Y}=\left\{\pm 1\right\}.$

Probabilistisches Lernen lässt sich als Induktionsprinzip auffassen, nach dem z. B. binäre Mustererkennung oder Klassifikation $f:\mathcal{X}\to \mathcal{Y}$ von Beobachtungen (x₁, y₁), …, (x_n, y_n) in die beiden Klassen $\mathcal{Y}=\left\{\pm 1\right\}$ erlernt wird. Dabei werden die Beobachtungen (x₁, y₁), …, (x_n, y_n) mit einer (unbekannten) Wahrscheinlichkeitsverteilung P_{X, Y} (i. i. d.) erzeugt und der erwartete Irrtum (Risiko) R der Klassifikationsfunktionen f über der Funktionenklasse $\mathcal{F}$ minimiert:

$R\left[f\right]=\int \frac{1}{2}\left|f(x)-y\right|\ d{P}_{X,Y}\left(x,y\right).$

Da aber die Wahrscheinlichkeitsverteilung P_{X, Y} für alle Werte unbekannt ist, kann diese Formel und damit die gesuchte Mustererkennung mit minimaler Fehlerabweichung nicht berechnet werden. Es stehen uns nur die endlich vielen empirisch beobachteten Zuordnungen (x₁, y₁), …, (x_n, y_n) zur Verfügung. Wir beschränken uns daher auf eine empirische Risikominimierung. Dazu ermitteln wir schrittweise für jede Zuordnungsfunktion f der Klasse $\mathcal{F}$ den empirischen Trainingsirrtum beim Lernen aus einem Sampel mit Umfang n, also

${R}_{emp}^n\left[f\right]=\frac{1}{n}{\sum}_{i=1}^n\frac{1}{2}\left|f\left({x}_i\right)-{y}_i\right|.$

Ein sensationelles Beispiel war die Entdeckung des Higgs Teilchens durch einen Machine Learning Algorithmus und Big Data. Am 28. August 2018 meldete CERN:

„Die überragende Leistung des Elementarteilchenbeschleunigers LHC (Large Hadron Collider) und moderne Machine Learning Technik ermöglichten es, die Kopplung des Higgs Bosons mit den schwersten Fermionen zu identifizieren. Damit wird erklärt, warum es Masse im Universum gibt.“

Das Standardmodell der Elementarteilchenphysik erklärt, dass das Higgs Boson H in zwei Bottom Quarks b in Verbindung mit einem Z Boson zerfällt, das in Elektron e⁻ und ein Antielektron e⁺ zerfällt. Dieses Ereignis muss unter Milliarden von Daten (Big Data) identifiziert werden, die durch Proton-Proton Kollisionen erzeugt werden. Dabei handelt es sich um ein Beispiel der Mustererkennung und Klassifikation in der Elementarteilchenphysik. Dazu müssen Signalereignisse s wie z. B. der Zerfall des Higgs-Bosons H→τ⁺τ⁻ von Hintergrundereignissen h unterschieden werden.

Der Vektor x = (x₁, …, x_n) mit n Größen eines Ereignisses (z. B. x₁ Impuls eines Leptons) wird durch eine Dichtefunktion der Verbundwahrscheinlichkeit f(x| s) für Signalereignisse und f(x| b) für Hintergrundereignisse bestimmt. Bildlich wird die Dichte der Signalereignisse mit roten Punkten und die Dichte der Hintergrundereignisse mit blauen Dreiecken dargestellt (Abb. 1). Die Selektion von Ereignismustern kann durch Schnitte (a), lineare Grenzen (b) und nicht lineare Grenzen (c) durchgeführt werden (Radovic et al. 2018).

Abb. 1
Statistische Mustererkennung in der Elementarteilchenphysik. (Radovic et al. 2018)

Die Konturen dieser Selektion werden durch ein konstantes Likelihood-Verhältnis der Dichtefunktionen für Signal- und Hintergrundereignisse bestimmt:

$\uplambda \left(\mathrm{x}\right)=\frac{f\left(\mathbf{x}|s\right)}{f\left(\mathbf{x}|b\right)}.$

Da die Wahrscheinlichkeitsdichten im allgemeinen unbekannt sind, ist λ(x) nicht berechenbar. Allerdings könnten endliche Samples mit Trainingsdaten durch Monte Carlo Methoden berechnet werden. Ziel sind Algorithmen des Machine learning, um eine Funktion y(x) zu finden, die am besten das Likelihood Verhältnis λ(x) für die Musterselektion der Signalereignisse approximiert.

Bei der Risikominimierung wird eine Folge von Funktionen der Klasse $\mathcal{F}$ mit verbessertem Trainingsirrtum erzeugt. Die zentrale Frage ist, ob durch dieses Verfahren eine Mustererkennung mit einer minimal möglichen Fehlerabweichung ermittelt werden kann. Mathematisch ist zu klären, ob die so ermittelte Funktionenfolge in der Klasse $\mathcal{F}$ gegen eine Funktion mit minimaler Fehlerabweichung konvergiert. Man spricht auch von der Konsistenz induktiver Risikominimierung, falls eine Folge von Funktionen erzeugt wird, deren Risiko gegen das kleinste mögliche Risiko konvergiert, das in der Funktionenklasse $\mathcal{F}$ mit n → ∞ möglich ist.

Tatsächlich lässt sich beweisen, dass eine solche Konvergenz bzw. ein solcher Lernerfolg nur für kleine Teilklassen garantiert ist. Ein Beispiel ist die Vapnik-Chervonenkis (VC) Dimension, mit der sich die Kapazität und Größe solcher Funktionenklassen bestimmen lässt (Vapnik 1998). Mit großer Wahrscheinlichkeit ist dann das Risiko nicht größer als das empirische Risiko (plus einem Term, der mit der Größe der Funktionenklasse wächst.)

Bei einem Konsistenzbeweis für induktive Risikominimierung lautet die mathematische Ausgangsfrage: Konvergiert die Folge von Funktionen, die das empirische Risiko ${R}_{\mathrm{em}}^n\left[f\right]$ minimieren, gegen eine Funktion, die ebenfalls das Risiko R[f] minimiert? Nach dem Gesetz der großen Zahl ist bekannt, dass für jedes gegebenes ε > 0 und $f\in \mathcal{F}={\mathcal{Y}}^{\mathcal{X}}$ gilt

${\lim}_{n\to \infty }P\left(|R\left[f\right]-{R}_{\mathrm{em}}^n\left[f\right]|>\varepsilon \right)=0$

mit einer exponentiell schnellen Konvergenz und Chernov Schranke (Vapnik 1998).

Daraus folgt aber keine Konsistenz der empirischen Risikominimierung. Der Grund dafür ist, dass die Funktion f durch Minimierung des empirischen Risikos ${R}_{\mathrm{em}}^n\left[f\right]$ gewählt wurde. Daraus folgt, dass die Irrtümer oder Verluste $\frac{1}{2}\mid f\left({x}_i\right)-{y}_i\mid$ nicht unabhängig sind, obwohl die Paare (x_i, y_i) unabhängig sind. In diesem Fall ist das Gesetz der großen Zahl nicht anwendbar. Um Konsistenz zu erhalten, wird ein uniformes Gesetz der großen Zahl benötigt:

${\lim}_{n\to \infty}\left({\sup}_{f\in \mathrm{\mathcal{F}}}\left(R\left[f\right]-{R}_{\mathrm{em}}^n\left[f\right]>\varepsilon \right)\right)=0\, \mathrm{f}\ddot{\mathrm{u}} \mathrm{r}\ \mathrm{alle}\, \varepsilon >0.$

Diese Eigenschaft hängt ab von der Funktionenklasse $\mathcal{F}$ . Daher stellt sich als nächstes die Frage, wie groß die Funktionenklasse $\mathcal{F}$ gewählt werden kann. Nicht jede Funktion $f:\mathcal{X}\to \mathcal{Y}$ garantiert nämlich Konsistenz:

Sei f^∗ eine Funktion mit f(x_i) = y_i auf dem Sample (x₁, y₁), …, (x_n, y_n) und f^∗∗ eine Funktion, die mit f^∗nur auf diesem Sample übereinstimmt and sonst nicht. Falls die Verteilung P_{X, Y} eine Dichte besitzt, dann ist die Wahrscheinlichkeit, auf irgendeinen Trainingspunkt in der Zukunft exakt zu treffen, Null. Daraus folgt, dass f^∗und f^∗∗ fast immer nicht übereinstimmen werden. Für das uniforme Gesetz der großen Zahl folgt daraus: Immer wenn ein f^∗ mit kleiner Differenz (R[f^∗] − ${R}_{\mathrm{em}}^n\left[{f}^{\ast}\right]\Big)$ gefunden wurde, dann lässt sich eine Funktion f^∗∗ mit großer Differenz (R[f^∗∗] − ${R}_{\mathrm{em}}^n\left[{f}^{\ast \ast}\right]\Big)$ angeben. Daher ist uniforme Konvergenz für die gesamte Funktionenklasse $\mathcal{F}={\mathcal{Y}}^{\mathcal{X}}$ unmöglich.

Das uniforme Gesetz der großen Zahl lässt sich allerdings für eine kleinere Funktionenklasse $\mathcal{F}$ als ${\mathcal{Y}}^{\mathcal{X}}$ anwenden. Als Maß der Größe der Funktionenklasse lässt sich die VC (Vapnik-Chervonenkis) Dimension heranziehen. Gelegentlich stimmt sie mit der Anzahl der freien Parameter von $\mathcal{F}$ überein. Falls die VC (Vapnik-Chervonenkis) Dimension von $\mathcal{F}$ endlich ist, dann ist die Konsistenz der empirischen Risikominimierung für jedes P_{X, Y} garantiert (Vapnik 1998).

Eine (typische) Risikoschranke der statistischen Lerntheorie besagt, dass für alle δ > 0 mit Wahrscheinlichkeit 1 − δ und für alle $f\in \mathcal{F}$ gilt:

$R(f)\le {R}_{\mathrm{em}}^n\left[f\right]+\sqrt{\frac{h\left(\log \left(\frac{2n}{h}\right)+1\right)-\log \left(\frac{\delta }{4}\right)}{n}},$

wobei h die VC Dimension der Funktionenklasse $\mathcal{F}$ ist. Das bedeutet, dass für eine „kleine“ Funktionenklasse (mit kleiner VC Dimension), in der geeignete Funktionen mit kleinem empirischen Risiko ${R}_{\mathrm{em}}^n\left[f\right]$ vorkommen, mit hoher Wahrscheinlichkeit garantiert werden kann, dass diese Funktionen kleine erwartete Irrtümer für zukünftige Daten bei gleicher Verteilung haben. Damit eröffnet das statistische Lernen eine bemerkenswerte Perspektive auf den Popperschen Falsifikationismus (Corfield et al. 2009).

Die Erfolge des Machine learning in Technik und Wirtschaft basieren auf großen Datensets (BIG DATA) und Rechenkapazität, mit denen diese Methoden trainiert werden können. Induktive Methoden des statistischen Lernens liefern aber nur Regularitäten von Wahrscheinlichkeitsverteilungen. Zugrundeliegende kausale Regularitäten erfordern zusätzliche mathematische Strukturen.

3 Grundlagen kausalen Lernens

Datenkorrelationen können Hinweise auf kausale Zusammenhängen liefern, müssen es aber nicht. Stellen wir uns eine Testreihe vor, bei der sich eine günstige Korrelation zwischen einer verabreichten chemischen Substanz und der Bekämpfung bestimmter Krebstumore ergibt. Dann entsteht Druck des betroffenen Unternehmens, mit einem entsprechenden Medikament in die Produktion zu gehen und Gewinne abzuschöpfen. Aber auch betroffene Patienten mögen darin ihre letzte Chance sehen. Tatsächlich erhalten wir ein nachhaltiges Medikament aber nur, wenn wir den zugrunde liegen kausalen Mechanismus des Tumorwachstums, also die Gesetze der Zellbiologie und Biochemie verstanden haben.

Bereits Newton war kaum an Datenkorrelationen der fallenden Äpfel von den Apfelbäumen seines väterlichen Bauernhofs interessiert. Diese populäre Geschichte hatte Voltaire in die Welt gesetzt. Newton war vielmehr an dem zugrunde liegenden mathematischen Kausalgesetz der Gravitation interessiert, mit dem genaue Erklärungen und Prognosen der fallenden Äpfel und der Himmelskörper möglich wurden, letztlich auch die darauf aufbauende heutige Satelliten- und Raketentechnik. Dazu leitete er mathematische Schlüsse auf der Grundlage von Keplers Planetengesetzen und einer angenommenen Gravitationskraft ab.

Die Auseinandersetzung zwischen probabilistischem und kausalem Denken ist keineswegs neu, sondern wurde erkenntnistheoretisch bereits in der Philosophie des 18. Jahrhunderts zwischen David Hume (1711–1776) und Immanuel Kant (1724–1804) ausgefochten. Nach Hume beruht alle Erkenntnis auf sinnlichen Eindrücken (Daten), die psychologisch „assoziiert“ werden. Es gibt danach keine Kausalitätsgesetze von Ursache und Wirkung, sondern nur Assoziationen von Eindrücken (z. B. Blitz und Donner), die mit (statistischer) Häufigkeit „gewohnheitsmäßig“ korreliert werden (Hume 1993). Nach Kant sind Kausalitätsgesetze als vernunftmäßig gebildete Hypothesen möglich, die experimentell überprüft werden können. Ihre Bildung beruht nicht auf psychologischen Assoziationen, sondern auf der vernunftmäßigen Kategorie der Kausalität (Kant 1900 ff.), die mithilfe der Einbildungskraft für Vorhersagen auf der Grundlage von Erfahrung operationalisiert werden kann. Nach Kant ist dieses Verfahren seit Galileo Galilei in der Physik in Gebrauch, die so erst zur Wissenschaft wurde.

Statistisches Lernen und Schließen aus Daten reichen also nicht aus. Wir müssen vielmehr die kausalen Zusammenhänge von Ursachen und Wirkungen hinter den Messdaten erkennen. Diese kausalen Zusammenhänge hängen von den Gesetzen der jeweiligen Anwendungsdomäne unserer Forschungsmethoden ab, also den Gesetzen der Physik im Beispiel von Newton, den Gesetzen des Standardmodells der Elementarteilchenphysik, aus denen der theoretische Physiker Higgs die Existenz des Higgs-Teilchens gefolgert hatte, den Gesetzen der Biochemie und des Zellwachstums im Beispiel der Krebsforschung, etc. Wäre es anders, könnten wir mit den Methoden des statistischen Lernens und Schließen bereits die Probleme dieser Welt lösen. Tatsächlich scheinen das einige kurzsichtige Zeitgenossen beim derzeitigen Hype der Künstlichen Intelligenz zu glauben.

Statistisches Lernen und Schließen ohne kausales Domänenwissen ist aber blind – bei noch so großer Datenmenge (Big Data) und Rechenpower. Neben der Statistik der Daten bedarf es zusätzlicher Gesetzes- und Strukturannahmen der Anwendungsdomänen, die durch Experimente und Interventionen überprüft werden. Kausale Erklärungsmodelle (z. B. das Planetenmodell Newtons, das Standardmodell von Higgs oder ein Tumormodell) erfüllen die Gesetzes- und Strukturannahmen einer Theorie (z. B. die Gravitationstheorie, die Elementarteilchenphysik oder die Gesetze der Zellbiologie).

Beim kausalen Schließen werden Eigenschaften von Daten und Beobachtungen aus angenommenen Kausalmodellen, d. h. Gesetzesannahmen von Ursachen und Wirkungen, abgeleitet. Kausales Schließen ermöglicht damit, die Wirkungen von Interventionen oder Datenveränderungen (z. B. durch Experimente) zu bestimmen. Kausales Lernen versucht umgekehrt, ein Kausalmodell aus Beobachtungen, Messdaten und Interventionen (z. B. Experimente) abzuleiten, die zusätzliche Gesetzes- und Strukturannahmen voraussetzen (Abb. 2).

Abb. 2
Statistisches und kausales Lernen. (Peters et al. 2017, S. 6, nach Abb. 1.1)

Ein strukturelles Kausalmodell besteht aus einem System von strukturellen Zuordnungen von Ursachen zu Wirkungen mit eventuellen Störvariablen. Ursachen und Wirkungen werden durch Zufallsvariablen beschrieben. Ihre funktionalen Zuordnungen (unter Berücksichtigung von Störvariablen) werden durch Gleichungen definiert, also z. B. Wirkung X_j = f(X_i, N) in funktioneller Abhängigkeit von Ursache X_i und Störvariable N. Anschaulich kann das Netzwerk der Ursachen und Wirkungen durch einen Graphen von Knoten und Kanten dargestellt werden. Zufallsvariablen von Ursachen und Wirkungen entsprechen Knoten. Kausale Wirkungen entsprechen gerichteten Pfeifen: X_i →X_j bedeutet, dass Ursache X_i Wirkung X_j auslöst.

Es lässt sich beweisen, dass ein Kausalmodell eine eindeutige Wahrscheinlichkeitsverteilung der Daten einschließt (Abb. 2: „subsumiert“), aber nicht umgekehrt: Für Kausalmodelle (z. B. Planetenmodell) müssen zusätzliche Gesetze (z. B. Gravitationsgesetz) angenommen werden (Mooij et al. 2013). Um kausale Abhängigkeiten und Unabhängigkeiten von Ereignissen zu erkennen, muss die Abhängigkeit und Unabhängigkeit der sie darstellenden Zufallsvariablen ermittelt werden. Statistisch lässt sich die Unabhängigkeit der Resultate x und y zweier Zufallsvariablen (anschaulich Zufallsexperimente) X und Y dadurch ausdrücken, dass ihre Verbundwahrscheinlichkeit p(x, y) faktorisierbar ist, d. h. p(x, y) = p(x)p(y). Man spricht in diesem Fall auch von der Markov-Bedingung. Auf dieser Grundlage lässt sich der Kalkül einer kausalen Unabhängigkeitsrelation ⫫ einführen (Pearl 2009):

Sei p(x) die Dichte der Wahrscheinlichkeitsverteilung P_X einer Zufallsvariablen X:

$X\ \mathsf{unabh}\ddot{\mathsf{a}} \mathsf{ngig}\ \mathsf{von}\ Y\ \left(X\amalg Y\right):\iff p\left(x,y\right)=p(x)p(y)\ \mathsf{f}\ddot{\mathsf{u}} \mathsf{r}\ \mathsf{alle}\ \mathsf{Werte}\ x,y\ \mathsf{of}\ X,Y$

${X}_1,\dots, {X}_d\ \mathsf{gegenseitig}\ \mathsf{unabh}\ddot{\mathsf{a}} \mathsf{ngig}:\iff p\left({x}_1,\dots, {x}_d\right)=p\left({x}_1\right)\bullet \dots \bullet p\left({x}_d\right)$

$\, \mathrm{f}\ddot{\mathrm{u}} \mathrm{r}\ \mathrm{alle}\ \mathrm{Werte}\ {x}_1,\dots, {x}_d\ \mathrm{von}\ {X}_1,\dots, {X}_d$

$X\ \mathsf{unabh}\ddot{\mathsf{a}} \mathsf{ngig}\ \mathsf{von}\, Y\ \mathsf{unter}\ \mathsf{Bedingung}\ Z\ \left(X\amalg Y|Z\right):\iff p\left(x,y|z\right)=p\left(x|z\right)p\left(y|z\right)$

$\, \mathrm{f}\ddot{\mathrm{u}} \mathrm{r}\ \mathrm{alle}\ \mathrm{Werte}\ x,y,z\ \mathrm{von}\ X,Y,Z\ \mathrm{mit}\ p(z)>0.$

Bedingte Unabhängigkeitsrelationen erfüllen folgende Regeln (Pearl et al. 2016):

$\, X\amalg Y\mid Z\Rightarrow Y\amalg X\mid Z\kern1.75em \left(\mathrm{Symmetrie}\right)$

$\, X\amalg Y,W\mid Z\Rightarrow X\amalg Y\mid Z\kern1.5em \left(\mathrm{Dekomposition}\right)$

$\, X\amalg Y,W\left|Z\Rightarrow X\amalg Y\right|W,Z\kern1.5em \left(\mathrm{schwache}\ \mathrm{Vereinigung}\right)$

$X\amalg Y\mid Z\ \mathsf{und}\ X\amalg W\mid Y,Z\Rightarrow X\amalg Y,W\mid Z\kern1.25em \left(\mathsf{Kontraktion}\right)$

$X\amalg Y\mid W,Z\ \mathsf{und}\ X\amalg W\mid Y,Z\Rightarrow X\amalg Y,W\mid Z\kern1.25em \left(\mathsf{Schnittmenge}\right)$

Die Unabhängigkeit von Zufallsvariablen lässt sich in einem Test prüfen: Sei ein endliches Sample (X₁, Y₁), …, (X_n, Y_n) ~ _iid P_{X, Y} gegeben. Sind die zugrunde liegenden Zufallsvariablen unabhängig oder nicht? Da es Zufallsfluktuationen von unabhängigen Messungen gibt, führt man statistische Hypothesentests mit einer Nullhypothese H₀ : X ⫫ Y und der entsprechenden Alternativhypothese H_A : nicht X ⫫ Y durch.

Eine Teststatistik T_n entscheidend entsprechend zu

$\left({x}_1,{y}_1\right),\dots, \left({x}_n,{y}_n\right)\longmapsto \left\{\begin{array}{c}{H}_0\ \mathrm{if}\ {T}_n\le c\ \\ {}{H}_A\ \mathrm{if}\ {T}_n>c\end{array}\right.$

mit dem Schwellenwert c ∈ ℝ, der den Typ I Irrtum kontrolliert:

Für jedes P, das die Nullhypothese H₀ erfüllt, gilt P(T_n > c) ≤ α mit Signifikanzstufe α des Tests (spezifiziert durch den Nutzer). Falls T_n > c ist, wird die Nullhypothese H₀ zurückgewiesen und Entscheidung H_A ist (relativ) korrekt. Andernfalls wird die Nullhypothese H₀ nicht zurückgewiesen (was aber nicht viel bedeuten muss): Zum Beispiel könnte die Größe n des Samples zu klein sein, um die Abhängigkeit zwischen X und Y zu entdecken.

Zur Illustration des Zusammenhangs eines grafischen Kausalnetzes mit entsprechenden Kausalgesetzen betrachten wir folgendes Beispiel: Gegeben sei ein System mit Kausalgesetzen

${X}_1:= {f}_1\left({X}_3,{N}_1\right)$

${X}_2:= {f}_2\left({X}_1,{N}_2\right)$

$\, {X}_3:= {f}_3\left({N}_3\right)$

$\, {X}_4:= {f}_4\left({X}_2,{X}_3,{N}_4\right),$

wobei N₁, N₂, N₃, N₄ unabhängige Störvariablen sind. Der entsprechende Kausalgraph $\mathcal{G}$ ist

Die Unabhängigkeit der Zufallsvariablen X₁, X₂, X₃, X₄ in der statistischen Verteilung ${P}_{X_1,{X}_2,{X}_3,{X}_4}$ lässt sich durch X₂ ⫫ X₃ ∣ X₁ und X₁ ⫫ X₄ ∣ X₂, X₃ bzw. durch die Markov-Faktorisierung darstellen:

$p\left({x}_1,{x}_2,{x}_3,{x}_4\right)=p\left({x}_3\right)p\left({x}_1|{x}_3\right)p\left({x}_2|{x}_1\right)p\left({x}_4|{x}_2,{x}_3\right).$

Allgemein besteht ein strukturelles Kausalmodell (SCM) $\mathfrak{C}=\Big(\mathrm{S},{P}_{\mathrm{N}}$ ) aus einer Menge S von d strukturellen Zuordnungen X_j ≔ f_j(PA_j, N_j)(j = 1, …, d) mit PA_j ⊆ {X₁, …, X_d} ∖ {X_j} Eltern von X_j und eine Verbundwahrscheinlichkeit P_N über die (gemeinsam unabhängigen) Störvariablen N = N₁, …, N_d. Der Graph $\mathcal{G}$ von SCM wird durch Knoten für jedes X_j und gerichtete Kanten von jedem Elternknoten in PA_j zu X_j erzeugt. X_j wird direkte Wirkung der Elemente von PA_j als direkten Ursachen von X_j genannt.

In einem gerichteten azyklischen Graphen (DAG) $\mathcal{G}$ ist ein Pfad zwischen Knoten i₁ und i_m genau dann durch eine Menge S mit i₁, i_m∉ S geblockt, wenn es einen Knoten i_k gibt, derart dass eine der folgenden zwei Möglichkeiten gilt:

(i)
i_k ∈ S und i_k − 1 ⟶ i_k ⟶ i_k + 1 oder i_k − 1 ⟵ i_k ⟵ i_k + 1 oder i_k ⟵ i_k ⟶ i_k + 1
(ii)
weder i_k noch irgendeiner seiner Nachkommen ist in S und i_k − 1 ⟶ i_k ⟵ i_k + 1.

In einem gerichteten azyklischen Graphen DAG $\mathcal{G}$ sind zwei disjunkte Knotenteilmengen A and B durch eine dritte disjunkte Teilmenge S d-separiert genau dann, wenn jeder Pfad zwischen Knoten in A and B durch S blockiert ist (A ${\amalg}_{\mathcal{G}}$ B | S ).

Eine Verbundwahrscheinlichkeit P_X erfüllt (Peters et al. 2017)

a)
die Markov Bedingung für DAG $\mathcal{G}$ genau dann, wenn
$\mathrm{A}\ {\amalg}_{\mathcal{G}}\ \mathrm{B}\mid \mathrm{S}\Rightarrow \mathrm{A}\amalg \mathrm{B}\mid \mathrm{S},$
i.e. d-Separation impliziert bedingte Unabhängigkeit für alle disjunkten Knotenmengen A, B, C.
b)
die Markov Faktorisierungseigenschaft bzgl. DAG $\mathcal{G}$ genau dann, wenn
$p\left(\mathrm{x}\right)=p\left({x}_1,\dots, {x}_d\right)={\prod}_{j=1}^dp\left({x}_j|{\mathrm{pa}}_j^{\mathcal{G}}\right)$
c)
die Treuebedingung bzgl. DAG $\mathcal{G}$ genau dann, wenn

$\mathrm{A}\amalg \mathrm{B}\mid \mathrm{S}\Rightarrow \mathrm{A}\ {\amalg}_{\mathcal{G}}\ \mathrm{B}\mid \mathrm{S}.$

Es gibt Markov-Verteilungen, die nicht treu sind.

Erkenntnistheoretisch hatte Kant nur postuliert, dass Kausalmodelle möglich und zur Erklärung von Sachverhalten notwendig seien. Welche Annahmen müssen aber Kausalmodelle erfüllen, um kausale Abläufe als kausale Graphen von Ursachen und Wirkungen in einer statistischen Datenverteilung zu identifizieren? Eine Wahrscheinlichkeitsverteilung P_X für Zufallsvariablen X = (X₁, …, X_d) kann verschiedene Kausalmodelle einschließen. Falls ein vollständiger direkter azyklischer Graph DAG von Ursache- und Wirkungsketten gegeben ist, lässt sich ein entsprechendes strukturelles Kausalmodell SCM angeben, das die entsprechende Wahrscheinlichkeitsverteilung P_X einschließt.

Falls die Verteilungsfunktion P_X Markov und treu bzgl. des zugrunde liegenden gerichteten azyklischen Graphen (DAG) ${\mathcal{G}}^0$ ist, liegt eine Eins-zu-Eins Korrespondenz zwischen Statements der d-Separation im Graphen ${\mathcal{G}}^0$ und entsprechenden Statements der bedingten Unabhängigkeit in der Wahrscheinlichkeitsverteilung vor. Alle Graphen außerhalb der korrekten Markov-Äquivalenzklasse von ${\mathcal{G}}^0$ können deshalb zurückgewiesen werden, da sie eine Menge von d-Separationen beinhalten, die nicht der Menge bedingter Unabhängigkeiten in P_X gleicht. Da beide Markov- und Treuebedingung nur den bedingten Unabhängigkeiten in der Verbundverteilung Beschränkungen auferlegen, ist klar, dass nicht zwischen zwei Markov-äquivalenten Graphen unterschieden werden kann, also zwischen zwei Graphen, die dieselbe Menge von bedingten Unabhängigkeiten einschließen. Zusammengefasst: Unter der Markov- und Treue-Bedingung ist die Markov-Äquivalenzklasse von Graph ${\mathcal{G}}^0$ in der Wahrscheinlichkeitsverteilung P_X identifizierbar.

Eine gegebene Wahrscheinlichkeitsverteilung könnte von mehreren strukturellen Kausalmodellen SCM mit verschiedenen kausalen Graphen eingeschlossen werden. Ob und welche kausalen Prozesse (dargestellt als gerichtete azyklische Graphen DAG) identifiziert werden können, hängt von strukturellen Annahmen des Kausalmodells ab. Die Annahmen betreffen die Art der Zuordnungsfunktionen in den Gleichungen des strukturellen Kausalmodells, die z. B. linear oder nicht linear sein können. Hinzu kommen Annahmen über die Störvariablen, die von Gaußschem Rauschen oder Nicht-Gaußschem Rauschen bestimmt sein können.

In Tab. 1 sind Sätze über die Identifizierbarkeit von gerichtete azyklische Graphen DAG unter der Annahme von Gaußschem Rauschen der Störvariablen zusammengestellt. Gegen sei eine Wahrscheinlichkeitsverteilung ${P}_{\mathbf{X}}^{\mathfrak{C}}$ über den Zufallsvariablen X = (X₁, …, X_d). Unter der Annahme eines allgemeinen strukturellen Modells SCM $\mathfrak{C}$ mit Gleichungen X_j ≔ f_j(PA_j, N_j)(j = 1, …, d) lässt sich ohne weitere Bedingungen der Gleichungsfunktionen kein kausaler Graph DAG in der Wahrscheinlichkeitsverteilung ${P}_{\mathrm{X}}^{\mathfrak{C}}$ identifizieren. Unter der Annahme von linearen (3-fach differenzierbaren) Gleichungsfunktionen und Gaußschen Störvariablen kann der entsprechende kausale Graph (DAG) ${\mathcal{G}}^0$ in der Wahrscheinlichkeitsverteilung ${P}_{\mathrm{X}}^{\mathfrak{C}}$ identifiziert werden. Unter der Annahme von linearen Zufallsvariablen mit Gaußverteilung der Störvariablen lässt sich ohne weitere Annahmen kein kausaler Graph identifizieren. Unter der Annahme von linearen Zufallsvariablen mit Gaußverteilung der Störvariablen lässt sich der kausale Graph ${\mathcal{G}}^0$ identifizieren, wenn die Varianz des Rauschens nicht von den einzelnen Zufallsvariablen abhängt (Peters et al. 2017, S. 138 ff.).

Tab. 1

Sätze über die Identifizierung von kausalen Graphen

Typen von strukturellen Modellen	Typen von Gleichungen	Bedingungen von Funktionen	Beweise von eindeutig identifizierbaren kausalen Graphen
Strukturelle Kausalmodelle SCM (allgemein)	${X}_j:= {f}_j\left({X}_{{\mathbf{PA}}_j},{N}_j\right)$	−	nein
Modelle ANM mit zusätzlichen Störvariablen	${X}_j:= {f}_j\left({X}_{{\mathbf{PA}}_j}\right)+{N}_j$	nichtlinear	ja
Kausalmodelle Modelle CAM mit zusätzlichen Störvariablen	${X}_j:= \sum \limits_{k\in {\mathbf{PA}}_j}{f}_{jk}\left({X}_k\right)+{N}_j$	nichtlinear	ja
Modelle mit linearer Gaußverteilung	${X}_j:= \sum \limits_{k\in {\mathbf{PA}}_j}{\beta}_{jk}{X}_k+{N}_j$	linear	nein
Modelle mit linearer Gaußverteilung und gleicher Irrtumsvarianz	${X}_j:= \sum \limits_{k\in {\mathbf{PA}}_j}{\beta}_{jk}{X}_k+{N}_j$	linear	ja

3.1 Beweise von Kausalstrukturen

Unabhängigkeits-basierte Methoden (wie z. B. der induktive Kausalitätsalgorithmus) nehmen an, dass die Wahrscheinlichkeitsverteilung treu bgl. des zugrunde liegenden gerichteten azyklischen Graphen DAG ist. Es gibt eine Eins-zu-Eins Korrespondenz zwischen d-Separation im Graph und bedingten Unabhängigkeiten in der Wahrscheinlichkeitsverteilung P_X. Jede Abfrage einer Behauptung über d-Separation im Graphen kann daher durch Prüfung des entsprechenden Tests bedingter Unabhängigkeit in der Wahrscheinlichkeitsverteilung beantwortet werden.

Abb. 3 zeigt zwei Verfahren zur Identifikation von Kausalstrukturen: Unabhängigkeits-basierte Methoden (links) testen bedingte Unabhängigkeiten in den Daten. Diese Eigenschaften beziehen sich auf die Graphenstruktur durch die Markov- und Treuebedingung. Oft ist der Graph nicht eindeutig identifizierbar. Die Methode kann in diesem Fall verschiedene Graphen $\mathcal{G}$ und ${\mathcal{G}}^{\prime }$ als Output angeben. Als Alternative (rechts) kann man die Modellklasse beschränken und die strukturellen Kausalmodelle (SCM) direkt anpassen.

Abb. 3
Von Datenerhebungen zu Kausalmodellen. (Peters et al. 2017, S. 144, nach Abb. 7.1)

Eine Alternative zur Methode der kausalen Graphenstrukturen besteht darin, kausales Lernen als logisches Erfüllbarkeitsproblem (SAT=Satisfiability) zu verstehen. Dazu werden grafische Relationen durch Boolesche Variablen dargestellt, z. B.

$A:= {}^{"} Es\ gibt\ eine\ gerichtete\ Kante\ von\ X\ nach\ {Y}^{"}\ \left(\mathrm{formal}:X\to Y\right).$

In einem nächsten Schritt müssen Unabhängigkeitsstatements (als d-separierte Statements) in Formeln mit Booleschen Variablen und logischen Operatoren wie „und“ „oder“ übersetzt werden. Das Erfüllbarkeitsproblem (SAT) fragt dann, ob ein Wert „wahr“ oder „falsch“ jeder Booleschen Variablen derart zugeordnet werden kann, dass die gesamte Formel wahr wird.

Beispiel:

Die d-Separation Statements können durch verschiedene Graphenstrukturen erfüllt werden, die verschiedenen Zuordnungen entsprechen. Falls in allen diesen Zuordnungen die Boolesche Variable A den Wert „wahr“ annimmt, lässt sich ableiten, dass X in dem zugrunde liegenden Graph ein Elternknoten von Y sein muss.

Man könnte versuchen, das SAT-Problem in einem brute force-Verfahren für alle Möglichkeiten durchzutesten. In diesem Sinn erweist sich aber das Boolesche SAT Problem als NP-vollständig (Cook 1971), d. h. seine Lösung wäre gleichbedeutend mit der Lösung aller NP-Probleme, deren Lösung für polynomiale Rechenzeit eine nicht-deterministische Turing-Maschine erfordert. Es ist also ein praktisch unlösbares Problem. Es gibt aber heuristische Algorithmen, die Spezialfälle von großen Problemen mit Millionen von Variablen lösen können.

Erkenntnistheoretisch zeigt die NP-Vollständigkeit des SAT-Problems, dass es allgemein keinen praktikablen Algorithmus geben kann, um für beliebige Wahrscheinlichkeitsverteilungen von Daten eine dahinterliegende Kausalstruktur zu finden. Das wäre ja auch zu schön: Dann könnte Machine Learning und Künstliche intelligenz die Arbeit kreativer Wissenschaftler vollständig übernehmen. Allerdings können Wissenschaftler auf der Suche nach Kausalerklärungen durch Algorithmen des kausalen Lernens unterstützt werden. Unter bestimmten Annahmen der unterstellten Kausalmodelle garantieren sie nämlich mathematisch die Existenz passender Kausalerklärungen, die durch kausale Graphen dargestellt werden können.

Erkenntnistheoretisch (im Sinne von Kant) bedeutet das: Wir können zwar nicht „durch reines Nachdenken“ (a priori) die Kausalität der Welt erkennen. Dafür gibt es keinen allgemeinen Algorithmus. Kants Kategorie der Kausalität umfasst also zunächst nur eine unbestimmte Klasse von möglichen Kausalitätsmodellen, die den beobachtbaren Sachverhalten und Prozessen in der Welt unterstellt werden kann. Unter konkreten Einschränkungen und Annahmen diese Kausalitätsmodelle lassen sich aber Kausalerklärungen mit entsprechenden kausalen Graphen mathematisch („a priori“) beweisen. Konkret könnten wir uns vorstellen, dass solche Algorithmen des kausalen Lernens nicht nur statistische Muster und Korrelationen von empirischen Daten (wie beim statistischen Lernen) erkennen, sondern dem Wissenschaftler Vorschläge über mögliche Kausalerklärungen machen. Diese theoretisch möglichen Erklärungen müssten dann allerdings noch in Experimenten, Messungen und Beobachtungen empirisch („a posteriori“) überprüft werden.

Statistisches Lernen ist erkenntnistheoretisch nur schwache Künstliche Intelligenz: Jeder einfache Organismus der Natur ändert auf der Grundlage von statistisch mehrfachen (aber endlich vielen) negativen Erfahrungen (Output) von bestimmten Aktionen (Input) sein Verhalten: Zum Beispiel zieht eine Schnecke nach einigen vergeblichen Versuchen, über ein Hindernis zu kriechen, ihre Fühler ein und ändert die Bewegungsrichtung. Ziel des kausalen Lernens ist es aber, hinter der statistischen Verteilung von Mess- und Beobachtungsdaten die kausalen Abhängigkeiten von Ursachen und Wirkungen zu entdecken. Das sind erste Schritte von starker künstlicher Intelligenz, wie wir sie vor allem beim Menschen (und anderen hoch entwickelten Tieren) vorfinden. (Ausgangssituation ist ein endliches Sample einer Datenerhebung: In Abb. 2 wird dazu eine Verbundwahrscheinlichkeit (z. B. ${P}_{X_1,{X}_2,{X}_3,{X}_4}$ ) von unabhängig und identisch verteilten (i. i. d. = independent and identically distributed)) Zufallsvariablen (z. B. X₁, X₂, X₃, X₄) vorausgesetzt. Durch Unabhängigkeitstests und Experimente lassen sich daraus Kausalmodelle ableiten, die durch Unabhängigkeitsrelationen bzw. wahrscheinlichkeitstheoretische Faktorisierung oder Kausalgesetze bestimmt sind. Auf der Grundlage solcher Kausalmodelle lassen sich die Abhängigkeiten von Ursachen und Wirkungen grafisch darstellen. Damit wird die eingangs geforderte Zuordnung (accountability) von Ursachen und Wirkungen erst möglich, die zur Klärung von Verantwortungsfragen (responsibility) notwendig ist.

Die Anzahl möglicher Kausalerklärungen (mit entsprechender grafischer Darstellung) steigt mit wachsender Zahl der Knoten für Ursachen und Wirkungen in einem kausalen Graphen exponentiell (OEIS Foundation Inc.). Hier werden die Berechenbarkeitsgrenzen der brute force Methode bei einer Suche nach Kausalerklärungen anschaulich:

d Anzahl der kausalen Graphen DAG mit d Knoten

1 1

2 3

3 25

4 543

5 29281

6 3781503

7 1138779265

8 783702329343

9 1213442454842881

10 4175098976430598143

11 31603459396418917607425

12 521939651343829405020504063

13 18676600744432035186664816926721

14 1439428141044398334941790719839535103

15 237725265553410354992180218286376719253505

16 837566707737333201876993030479964122235223138303

…

Wegen dieser Explosion von Parametern führt die Komplexität praktischer Anwendungen zu einer dramatischen Herausforderung des statistischen Machine learning, die häufig unterschätzt wird. Hier werden die Strategien des kausalen Lernens entscheidend.

4 Beispiel: Statistisches und kausales Lernen in der Astronomie

Die Kausalstruktur, die einem statistischen Modell unterliegt, kann für eine erfolgreiche Anwendung des Machine Learning folgenreich sein. So kann eine gegebene Kausalstruktur genutzt werden, um das systematische Rauschen von Messdaten bei Voraussagen von Ereignissen in der Astronomie zu reduzieren. Als Beispiel betrachten wir das Kausalmodell, das bei der Voraussage von Exoplaneten zugrunde gelegt wird (Abb. 4):

Abb. 4
Exoplanet mit periodisch wechselnder Helligkeit bei der Umrundung seiner Sonne. (Nach N. Smolenski: https://en.wikipedia.org./wiki/File:Planetary_transit.avg.[CCBY-SA 3.0])

Das Signal von Interesse Q (z. B. periodische Abnahme der Lichtintensität eines Sterns verursacht durch einen umlaufenden Planeten) kann nur in einer verrauschten Version Y gemessen werden (Abb. 4). Falls dieselbe Störquelle auch die Messungen von anderen Signalen unabhängig von Q stört (z. B. Lichtjahre voneinander entfernte Sterne), dann können diese Messungen zum „Entrauschen“, also zur Vernachlässigung der Messstörungen verwendet werden. Dabei ist das verwendete Beobachtungsteleskop N die systematische Störquelle für die Messungen X und Y von unabhängigen Lichtkurven. Dieses Teleskop misst mehrere Sterne zur gleichen Zeit. Sie können als statistisch unabhängig angenommen werden, da sie Lichtjahre voneinander entfernt sind und nach der Relativitätstheorie Einsteins keine Wirkungen schneller als Licht übertragen werden können.

In Abb. 5 sind X Messungen von Signalen R, die unabhäng von Q sind. Anschaulich muss alles in Y, was durch X erklärt werden kann, durch die gemeinsame Störquelle des Teleskops N bedingt sein und sollte daher entfernt werden. Formal sei $\mathbb{E}\left[Y|X\right]$ die Erwartungswahrscheinlichkeit (Regression) des beobachteten Ereignisses Y abhängig von Ereignis X. Da X und Y im kausalen Graph (Abb. 5) denselben Elternknoten N haben, werden sie grafisch als „Halbgeschwister“ (half-sibling) bezeichnet. Man spricht daher auch von der „Regression der Halbgeschwister“ (half-sibling regression). Damit lässt sich das unbeobachtete „wahre“ Signal Q abschätzen, indem von der Messung Y die Erwartungswahrscheinlichkeit der durch das gemeinsame Messinstrument mit X bedingten Störungen abgezogen wird:

$\hat{Q}:= Y-\mathbb{E}\left[Y|X\right].$

Abb. 5
Die Kausalstruktur, die bei der Suche nach Exoplaneten angewendet wird. (Nach Peters et al. 2017, S. 158)

Allgemein lässt sich für Zufallsvariablen Q, X, Y mit Q unabhängig von X (Q ⫫ X ) und Schätzung $\hat{Q}:= Y-\mathbb{E}\left[Y|X\right]$ von Q beweisen, dass die Methode des „Entrauschens“ nie schlechter sein kann als die Messung Y selber (Schölkopf et al. 2016, proposition 1):

$\mathbb{E}\left[\ {\left(Q-E\left[Q\right]-\hat{Q}\right)}^2\right]\le \mathbb{E}\left[\ {\left(Q-E\left[Q\right]-\left(Y-E\left[Y\right]\right)\right)}^2\right].$

5 Beispiel: Statistisches und kausales Lernen in der Gehirnforschung

In der Gehirnforschung haben wir es mit einem der komplexesten neuronalen Netze zu tun, das in der Evolution entstand. Neuronale Netze werden durch kausale Graphen dargestellt, deren Knoten für Neuronen und deren gerichtete Kanten für synaptische Verbindungen der Neuronen stehen. Im mathematischen Modell nehmen wir vereinfachend einen Vektor z an, mit dem die Aktivität einer großen Anzahl von Gehirnregionen kodiert wird. Die Dynamik (d. h. die zeitliche Entwicklung) von z wird bestimmt durch eine Differenzialgleichung

$\frac{d}{dt}z=F\left(z,u,\theta \right)$

mit F gegebener Funktion, u Vektor der externen Stimulationen und θ Parameter der kausalen Verbindungen (Friston et al. 2003).

Die Gehirnaktivität z kann aber nicht direkt beobachtet werden. Functional resonance imaging (fMRI) bestimmt nur den Verbrauch an Nährstoffen (Sauerstoff und Glukose) zur Kompensation des gestiegenen Energiebedarfs, der durch Blutfluss geliefert wird (hämodynamische Antwort). Das Anwachsen wird durch das blood-oxygen-level-dependent (BOLD) Signal bestimmt. Daher muss z im dynamischen Kausalmodell durch eine Zustandsvariable x ersetzt werden, in der die Gehirnaktivität mit der hämodynamischen Antwort berücksichtigt wird:

$\frac{d}{dt}x=F\left(x,u,\theta \right).$

Dazu wird die gemessene Zeitreihe des BOLD Signals y = λ(x) mit der Zustandsvariablen x verbunden.

Tatsächlich haben wir es beim menschlichen Gehirn mit einer Datenflut zu tun, die durch 86 Milliarden Neuronen hervorgebracht wird. Wie im Einzelnen die kausalen Wechselwirkungen zwischen den Neuronen hinter diesen Datenwolken ablaufen, bleibt vorläufig weiterhin eine Black Box. Statistisches Lernen aus gemessenen Daten reicht aber auch im Zeitalter von Big Data und wachsender Rechenpower nicht aus. Mehr Erklärung der kausalen Wechselwirkungen zwischen den einzelnen Gehirnregionen, also kausales Lernen, ist eine zentrale Herausforderung der Gehirnforschung, um bessere medizinische Diagnose, psychologische und rechtliche Zurechnungsfähigkeit zu erhalten (Lohmann et al. 2012). Dazu vergleiche auch den Artikel über Verifikation und Sicherheit für neuronale Netze in diesem Handbuch.

6 Beispiel: Statistisches und kausales Lernen in Mobilitätsnetzen

Ein hochaktuelles technisches Beispiel für die wachsende Komplexität neuronaler Netze sind selbst-lernende Fahrzeuge. So kann ein einfaches Automobil mit verschiedenen Sensoren (z. B. Nachbarschaft, Licht, Kollision) und motorischer Ausstattung bereits komplexes Verhalten durch ein sich selbst organisierendes neuronales Netzwerk erzeugen. Werden benachbarte Sensoren bei einer Kollision mit einem äußeren Gegenstand erregt, dann auch die mit den Sensoren verbundenen Neuronen eines entsprechenden neuronalen Netzes. So entsteht im neuronalen Netz ein Verschaltungsmuster, das den äußeren Gegenstand repräsentiert. Im Prinzip ist dieser Vorgang ähnlich wie bei der Wahrnehmung eines äußeren Gegenstands durch einen Organismus – nur dort sehr viel komplexer.

Wenn wir uns nun noch vorstellen, dass dieses Automobil mit einem „Gedächtnis“ (Datenbank) ausgestattet wird, mit dem es sich solche gefährlichen Kollisionen merken kann, um sie in Zukunft zu vermeiden, dann ahnt man, wie die Automobilindustrie in Zukunft unterwegs sein wird, selbst-lernende Fahrzeuge zu bauen. Sie werden sich erheblich von den herkömmlichen Fahrerassistenzsystemen mit vorprogrammiertem Verhalten unter bestimmten Bedingungen unterscheiden. Es wird sich um ein neuronales Lernen handeln, wie wir es in der Natur von höher entwickelten Organismen kennen.

Wie viele reale Unfälle sind aber erforderlich, um selbstlernende („autonome“) Fahrzeuge zu trainieren? Wer ist verantwortlich, wenn autonome Fahrzeuge in Unfälle verwickelt sind? Welche ethischen und rechtlichen Herausforderungen stellen sich? Bei komplexen Systemen wie neuronalen Netzen mit z. B. Millionen von Elementen und Milliarden von synaptischen Verbindungen erlauben zwar die Gesetze der statistischen Physik, globale Aussagen über Trend- und Konvergenzverhalten des gesamten Systems zu machen. Die Zahl der empirischen Parameter der einzelnen Elemente ist jedoch unter Umständen so groß, dass keine lokalen Ursachen ausgemacht werden können. Das neuronale Netz bleibt für uns eine „Black Box“. Vom ingenieurwissenschaftlichen Standpunkt aus sprechen Autoren daher von einem „dunklen Geheimnis“ im Zentrum der KI des Machine Learning: „… even the engineers who designed [the machine learning-based system] may struggle to isolate the reason for any single action“ (Knight 2017).

Zwei verschiedene Ansätze im Software Engineering sind denkbar:

1.
Testen zeigt nur (zufällig) gefundene Fehler, aber nicht alle anderen möglichen.
2.
Zur grundsätzlichen Vermeidung müsste eine formale Verifikation des neuronalen Netzes und seiner zugrunde liegenden kausalen Abläufe durchgeführt werden.

Der Vorteil des automatischen Beweisens ist es, die Korrektheit einer Software als mathematisches Theorem zu beweisen (Mainzer 2018a, Kap. 7). Das leisten Beweisassistenten (Schwichtenberg 2006; Nipkow et al. 2002). Dazu vergleiche auch den Artikel über automatisches Beweisen in diesem Handbuch. Daher lautet der Vorschlag, eine formale Metaebene über dem neuronalen Netz des Machine Learning einzuführen, um dort Korrektheitsbeweise mit einem Beweisassistenten (proof assistant) automatisch ausführen zu lassen (Mainzer 2018b). Dazu stellen wir uns ein selbst-lernendes Automobil ausgestattet mit Sensoren und damit verbundenem neuronalen Netz vor – quasi als Nervensystem und Gehirn des Systems. Ziel ist es, dass das Verhalten des Automobils nach den Regeln der Straßenverkehrsordnung verläuft (Abb. 6). Die Straßenverkehrsordnung wurde 1968 in der Wiener Konvention formuliert.

Abb. 6
Kausales Lernen selbstlernender Fahrzeuge nach der Verkehrsordnung. (Quelle: eigene Zeichnung)

In einem ersten Schritt wird das Automobil wie z. B. ein Flugzeug mit einer Black Box ausgestattet, um die Fülle der Verhaltensdaten zu registrieren. Diese Datenmasse des Fahrverhaltens sollte aus entsprechenden Verkehrsregeln der Wiener Konvention logisch folgen. Diese logische Implikation (formal: ⊨ ) realisiert die gewünschte Kontrolle, um Fehlverhalten auszuschließen. Auf der Metaebene wird die Implikation formalisiert, um ihren Beweis durch einen Beweisassistenten zu automatisieren.

Dazu müsste zunächst das Rechtssystem der Wiener Konvention formalisiert werden. In einem nächsten Schritt müsste aus der Datenmasse der Black Box die Bewegungsbahn, also der kausale Bewegungsablauf des Fahrzeugs extrahiert werden. Dazu bietet sich das kausale Lernen an, das wir vorher erklärt haben. Der kausale Bewegungsablauf lässt sich grafisch in einer Kausalkette von Ursachen und Wirkungen als kausaler Graph repräsentieren. Diese Darstellung der Bahnkurve des Fahrzeugs müsste auf der Metaebene in einer formalen Sprache repräsentiert werden. Diese formale Beschreibung müsste von der formalisierten Wiener Konvention impliziert werden. Der formale Beweis dieser Implikation wird durch den Beweisassistenten automatisiert und wäre mit heutiger Rechenpower blitzschnell zu realisieren.

Zusammengefasst folgt: Machine Learning mit neuronalen Netzen funktioniert, aber wir können die Abläufe in den neuronalen Netzen nicht im Einzelnen verstehen und kontrollieren. Heutige Techniken des Machine Learning beruhen meistens nur auf statistischem Lernen, aber das reicht nicht für sicherheitskritische Systeme. Daher sollte Machine Learning mit Beweisassistenten und kausalem Lernen verbunden werden. Korrektes Verhalten wird dabei durch Metatheoreme in einem logischen Formalismus garantiert.

Dieses Modell selbst-lernender Fahrzeuge erinnert an die Organisation des Lernens im menschlichen Organismus: Verhalten und Reaktionen laufen dort ebenfalls weitgehend unbewusst ab. „Unbewusst“ heißt, dass wir uns der kausalen Abläufe des durch sensorielle und neuronale Signale gesteuerten Bewegungsapparats nicht bewusst sind. Das lässt sich mit Algorithmen des statistischen Lernens automatisieren. In kritischen Situationen reicht das aber nicht aus: Um mehr Sicherheit durch bessere Kontrolle im menschlichen Organismus zu erreichen, muss der Verstand mit kausaler Analyse und logischem Schließen eingreifen. Unser Ziel ist es, dass dieser Vorgang im Machine Learning durch Algorithmen des kausalen Lernens und logischen Beweisassistenten automatisiert wird.

Literatur

Cook, S. A. 1971. The complexity of theorem-proving procedures. In Proceedings of the 3rd annual ACM symposium on theory of computing, 151–158.
Corfield, D., B. Schölkopf, und V. Vapnik. 2009. Falsificationism and statistical learning theory: Comparing the Popper and Vapnik-Chervonenskis dimensions. Journal for General Philosophy of Science 40(1): 51–58.Crossref
Friston, K., I. Harrison, und W. Penny. 2003. Dynamic causal modelling. NeuroImage 19:1273–1302.Crossref
Hume, D. 1993. Eine Untersuchung über den menschlichen Verstand, übersetzt von R. Richter, Hrsg. von J. Kulenkampff, 12. Aufl., 95. Hamburg: F. Meiner.
Kant, I. 1900. Preussische Akademie der Wissenschaften Hrsg., Bd. 1–22, Bd. 23 Deutsche Akademie der Wissenschaften zu Berlin, ab Bd. 24 Akademie der Wissenschaften zu Göttingen, Berlin, AA III, 93– KrV B 106.
Knight, W. 2017. The dark secret at the heart of AI. MIT Technology Review, 1–22.
Lohmann, G., K. Erfurth, K. Müller, und R. Turner. 2012. Critical comments on dynamic causal modelling. NeuroImage 59:2322–2329.Crossref
Mainzer, K. 2018a. The digital and the real world. Computational foundations of mathematics, science, technology, and philosophy. Singapur: World Scientific.
Mainzer, K. 2018b. Wie berechenbar ist unsere Welt. Herausforderungen für Mathematik, Informatik und Philosophie im Zeitalter der Digitalisierung. Wiesbaden: Springer.
Mooij, J. M., D. Janzing, und B. Schölkopf. 2013. From ordinary differential equations to structural causal models: The deterministic case. In Proceedings of the 29th annual conference on Uncertainty in ArtificiaL Intelligence (UAI), 440–448.
Nipkow, T., L. C. Paulson, und M. Wenzel. 2002. Isabelle/HOL. A proof assistant for high-order logic. Heidelberg: Springer.
OEIS Foundation Inc. The on-line encyclopedia of integer sequences. http://oeis.org/A003024.2017. Zugegriffen am 17.04.2020.
Pearl, J. 2009. Causality: Models, reasoning, and inference. Cambridge, MA: The MIT Press.
Pearl, J., Glymour, M., und Jewell N. P. 2016. Causal inference in statistics. New York: Wiley.
Peters, J., D. Janzing, und B. Schölkopf. 2017. Elements of causal inference. Foundations and learning algorithms. Cambridge MA: The MIT Press.
Radovic, A., M. Williams, D. Rousseau, M. Kagan, D. Bonacorsi, A. Himmel, A. Aurisano, K. Terao, und T. Wongjirad. 2018. Machine learning at the energy and intensity frontiers of particle physics. Nature 560:41–48.Crossref
Schölkopf, B., D. W. Hogg, D. Wang, D. Foreman-Mackey, D. Janzing, C.-J. Simon-Gabriel, und J. Peters. 2016. Modeling confounding by half-sibling regression. Proceedings of the National Academy of Sciences 113(27): 7391–7398.Crossref
Schwichtenberg, H. 2006. Minlog. In The seventeen provers of the world. Lecture notes in artificial intelligence, Bd. 3600, Hrsg. F. Wiedijk, 151–157. Berlin: Springer.
Vapnik, V. N. 1998. Statistical learning theory. New York: Wiley.