Einleitung

Willkommen in der wunderbaren Welt des Datenschutzes! Möglicherweise haben Sie sich bereits eine Meinung zum Datenschutz (engl. Data Privacy) gebildet – dass er eine lästige Angelegenheit ist, dass er bürokratisch und deshalb langweilig ist, oder Sie sind vielleicht der Meinung, dass es ein Thema ist, für das lediglich Juristinnen und Juristen Interesse aufbringen können. In diesem Buch werden Sie herausfinden, wie technisch komplex und interessant die Herausforderungen des Datenschutzes sind – und auch in Zukunft sein werden. Sollte Ihre Begeisterung für knifflige mathematische und statistische Fragestellungen zu Ihrer Entscheidung geführt haben, sich mit Data Science zu befassen, dann werden Sie mit Sicherheit auch Gefallen daran finden, Datenschutz aus der Perspektive der Data Science zu erforschen. Die in diesem Buch vermittelten Inhalte werden Ihre Kenntnisse in den Bereichen Wahrscheinlichkeitstheorie, Modellierung und sogar Kryptografie erweitern.

Für Data-Science-Fachleute wird es zunehmend wichtiger, zu lernen, wie auch Datenschutzprobleme gelöst werden können. Nachdem Sie das Buch gelesen haben, werden Sie in der Lage sein, reale Probleme in Bereichen wie Cybersicherheit, Gesundheitswesen und Finanzwirtschaft zu lösen und Ihre Karriere innerhalb eines Irrgartens aus Datenschutzbestimmungen, -richtlinien und -rahmen voranzutreiben. Seit Inkrafttreten der Europäischen Datenschutz-Grundverordnung (DSGVO oder DS-GVO, engl. General Data Protection Regulation – GDPR) im Jahr 2018 ist die weltweite Datenschutzlandschaft noch komplexer geworden. Diese Komplexität wird weiter zunehmen, da Aufsichtsbehörden und Gesetzgeber fortwährend die Regeln dahin gehend ändern, wie, wo, warum und wann Sie Daten speichern dürfen. Wenn Sie jetzt Ihre Kompetenzen rund um den Bereich Datenschutz und Datensicherheit erweitern, ist das zweifelsohne eine sinnvolle Investition in Ihre berufliche Zukunft.

Darüber hinaus leisten Sie, wenn Sie Zeit darin investieren, neue Kenntnisse über den Datenschutz zu erlangen, einen Beitrag im Bereich der Data Science und fördern Vertrauen, Verantwortlichkeit, gegenseitiges Verständnis und soziale Verantwortung. Maschinelles Lernen (Machine Learning) zur Lösung von Problemen in der realen Welt stößt gegenwärtig dort auf Angst und Widerstände, wo Daten, Modelle und Systeme in nicht vertrauenswürdiger Weise genutzt wurden und sich Fragen nach Gerechtigkeit und Fairness stellen. Ein Beispiel: Clearview AI sammelt Bilder von Gesichtern aus sozialen Netzwerken und verkauft das auf dieser Grundlage entwickelte Gesichtserkennungsmodell an Strafverfolgungsbehörden (https://oreil.ly/PE6u1)1, was Fragen hinsichtlich des Eigentums an den Daten, dem Schutz der Privatsphäre und der Haftung aufwirft. Um diesem Reputationsverlust entgegenzuwirken und Wege für eine verantwortungsbewusste und vertrauenswürdige Datennutzung zu schaffen, bedarf es in der Branche Data Scientists und Machine Learning Engineers, die die vorliegenden Aufgaben und die damit verbundenen Risiken verstehen und bei der Entwicklung von Systemen diese Fragen kompetent berücksichtigen können. Der Datenschutz kann Ihnen dabei helfen, gerechtere, ethisch besser zu vertretende und verantwortungsvollere Systeme zu entwickeln, bei denen die Benutzerinnen und Benutzer die Macht und die Möglichkeit haben, sich einzubringen, und im Mittelpunkt Ihrer Ausgestaltung stehen. Mithilfe dieses Buchs können Sie diese Herausforderungen meistern und dank praxisnaher Anleitungen neue Wege finden.

Ich hoffe, dass dieses Buch einen Beitrag zur neuen Data Science leisten kann, indem es das Bewusstsein dafür schärft, wie der Schutz sensibler Daten in geeigneter Weise umgesetzt werden kann. Weltweit sind die Ängste vor der Digitalisierung persönlicher Daten – selbst für den verantwortungsvollen Einsatz durch die Regierung – so groß, dass sie die Nutzung von Daten zur Unterstützung bei sozialen Problemen wie dem Klimawandel, der Finanzaufsicht und globalen Gesundheitskrisen behindern. Wenn wir den Datenschutz in die Data Science integrieren, eröffnen sich neue Wege für die Nutzung von Daten bei wichtigen Entscheidungen für unsere Gesellschaft und unsere Welt.

Was ist Data Privacy?

Vereinfacht gesagt, schützt Privacy Daten und Menschen, indem es durch Beschränkungen hinsichtlich des Zugriffs, der Nutzung, der Verarbeitung und der Speicherung einen besseren Schutz der Privatsphäre ermöglicht und garantiert. In der Regel handelt es sich dabei um personenbezogene Daten, es umfasst aber jegliche Art der Verarbeitung. Diese Definition greift allerdings zu kurz, um Data Privacy in seiner ganzen Breite zu begreifen.

Privacy ist ein komplexes Konzept – mit Aspekten aus vielen verschiedenen Bereichen unserer Welt, sei es in rechtlicher, technischer, sozialer, kultureller oder individueller Hinsicht. Werfen wir zunächst einen Blick auf diese Aspekte und ihre Überschneidungen, damit Sie eine Vorstellung davon bekommen, wie weitreichend die Auswirkungen der in diesem Buch behandelten Themen und Vorgehensweisen sind. In Abbildung E-1 sehen Sie die verschiedenen Arten der Definitionen von Privacy (bzw. des Datenschutzes oder der Wahrung der Privatsphäre)2, und ich habe versucht, das jeweilige Ausmaß in der Abbildung zu illustrieren. Gehen wir sie durch und beginnen wir mit den rechtlichen Definitionen.

Im juristischen Kontext umfasst Privacy die Vorschriften, die Rechtsprechung und die Richtlinien, die festlegen, welche Maßnahmen erforderlich sind und was in einem bestimmten Staat oder einer bestimmten Gerichtsbarkeit unter Privacy zu verstehen ist. Wie Sie in den Kapiteln 1 und 8 erfahren werden, handelt es sich dabei um ein sich ständig wandelndes Rechtsverständnis und eine Landschaft, die sich in den letzten Jahren drastisch verändert hat. Es ist wichtig, dass Sie sich mit den rechtlichen Aspekten von Privacy vertraut machen, da sie sich direkt auf Ihre Arbeit auswirken können. Was passiert zum Beispiel, wenn Ihr Unternehmen von einem Audit, einer Datenschutzverletzung oder einer Verbraucherbeschwerde betroffen ist? Diese gesetzlichen Definitionen wirken sich auch auf Ihr persönliches Leben aus, beispielsweise bei der Frage, welche Rechte Sie als Datenbürger haben.

image

Abbildung E-1: Definitionen von Privacy

Die wissenschaftlichen bzw. technischen Definitionen von Privacy und deren Umsetzung in Ihrer täglichen Arbeit stehen im Mittelpunkt dieses Buchs. Sie lernen diese Definitionen kennen und erfahren, wie Sie wissenschaftliche Technologien zum Schutz der Privatsphäre in großem Umfang einsetzen und wie Sie technische Entscheidungen zum Thema Privacy treffen können. Mit den Tools in diesem Buch lernen Sie modernste Best Practices kennen, die in Ihrem Unternehmen möglicherweise noch nicht bekannt sind, da sie erst seit Kurzem in Produktionssystemen zur Verfügung stehen. Über diese Praktiken auf dem Laufenden zu bleiben, wird Teil Ihres Jobs sein – jedenfalls sofern Sie sich dazu entscheiden, sich auf diesen Bereich zu konzentrieren. Als technischer Experte für dieses Thema werden Sie gebeten werden, geschäftliche und juristische Entscheidungen zum Datenschutz zu unterstützen und diese in funktionsfähige Software und Systeme umzusetzen. Dies ist eine wichtige Aufgabe, denn viele der anderen Beteiligten werden kein technisches und zeitgemäßes Verständnis von Data Privacy haben.

Die sozialen und kulturellen Aspekte von Privacy lassen sich am besten anhand einer Studie zu Data Privacy von danah boyd (http://www.danah.org) erklären. Sie untersuchte jugendliche Mädchen und ihre Interaktion mit sozialen Medien, um zu verstehen, wie die Technologie ihr Verständnis von Konzepten wie Privacy beeinflusst. Ihre Definition lautet wie folgt:

Bei Privacy geht es weder um die Kontrolle über Daten, noch ist sie eine der Eigenschaften von Daten. Es geht um ein kollektives Verständnis der Grenzen einer gesellschaftlichen Situation und um das Wissen, wie man innerhalb dieser Grenzen agiert. Mit anderen Worten, es geht darum, die Kontrolle über eine Situation zu besitzen. Es geht darum, das jeweilige Gegenüber zu verstehen und zu wissen, wie weit Informationen verbreitet werden. Es geht darum, den Menschen, der Situation und dem Kontext zu vertrauen.

– danah boyd, in »Privacy and Publicity in the Context of Big Data« (https://oreil.ly/ThnPz)

boyd weist uns mit dieser Definition auf einen neuen Aspekt von Privacy hin, der wesentliche Veränderungen bei der Gestaltung von Privacy in Systemen mit sich bringt. Im Gegensatz zu technischen und rechtlichen Definitionen stellt boyd das soziale und kulturelle Verständnis, den Kontext und die individuelle Wahl und das Bewusstsein in den Mittelpunkt. Wenn Sie ihre Arbeit lesen oder sie sprechen hören, erfahren Sie Wahrheiten, die Sie zwar oft gefühlt, aber nie vollständig erfasst haben, und zwar darüber, wie wir als Menschen und als Gesellschaft Privatsphäre und Informationen verstehen.

Wenn ich zum Beispiel meine Stimme senke und flüstere, um Ihnen etwas mitzuteilen, verstehen Sie, dass diese Information nicht für die Öffentlichkeit bestimmt ist. Wenn ich es auf einem öffentlichen Platz herausschreie und die Leute auffordere, zuzuhören, verstehen Sie, dass ich möchte, dass so viele Menschen wie möglich es hören. Wie eine Person entscheidet, mit wem sie kommuniziert, und wie sie kommuniziert, wird stark davon beeinflusst, wie diese Person den Begriff »Privacy« definiert und betrachtet (siehe Abbildung E-1). Die Fähigkeit, die eigene Kommunikation mit anderen auszuprobieren und zu verändern, hat sich im Laufe der Zeit erheblich verändert. Technologie und das Internet erlauben allen, ihre Kommunikation und die aus ihr resultierenden Möglichkeiten im Hinblick auf Privacy auf Kontexte auszudehnen, die nicht in der physischen Welt verhaftet sind. Dadurch ergeben sich neue Möglichkeiten, Kontakte zu knüpfen, sich mit anderen auszutauschen und Informationen zu teilen – und das ist wunderbar!

Diese Verlagerung von der physischen in die Onlinewelt hat jedoch auch dazu geführt, dass wir nicht mehr wissen, in welchem Kontext wir uns bewegen. Wie lauten die Regeln für diesen Raum? Wer kann mich sehen und hören? Spreche ich mit Ihnen oder mit einer Gruppe, und wie groß ist diese Gruppe? Helen Nissenbaums Forschung zur kontextuellen Integrität (https://oreil.ly/SZ0iF) zeigt, dass die technische Entwicklung die Wahrnehmbarkeit und Transparenz dieser Grenzen verändert hat – nicht nur über die Benutzeroberflächen, sondern auch in der grundlegenden Art und Weise, wie Systeme und Software entwickelt werden. Entscheidungen über die Standardeinstellungen von Anwendungen wirken sich auf die Privatsphäre von potenziell Millionen von Menschen gleichzeitig aus. Entscheidungen über Sicherheit und Verschlüsselung machen private Gespräche offen für Strafverfolgung und staatliche Überwachung. Data Warehouses können aus sensiblen Informationen, die nur für eine Person bestimmt sind, Zugriffsmöglichkeiten für Mitarbeitende und Datendienste Dritter schaffen. Wenn der Kontext verloren geht oder kaschiert wird und das Systemdesign die sozialen und kulturellen Definitionen von Privacy nicht berücksichtigt, hat die Technologie den menschlichen Aspekt von Privacy im Wesentlichen ignoriert.

Dieses Buch zeigt Ihnen Möglichkeiten auf, wie Sie diese gesellschaftlichen Erkenntnisse in Systemen in der Praxis umsetzen können. Sie werden viele schwierige Entscheidungen treffen müssen – aber den Nutzenden Möglichkeiten geben, sich in digitalen Räumen in Bezug auf ihre Privatsphäre zurechtzufinden; und sichere Standardeinstellungen sind Geschenke von unschätzbarem Wert, von denen die Welt mehr braucht. Während Sie dieses Buch lesen und mehr über die technischen Aspekte von Privacy erfahren, sollten Sie die soziale und die rechtliche Definition im Hinterkopf behalten – sie sind und werden für immer miteinander verwoben sein.

An wen richtet sich dieses Buch?

Dieses Buch richtet sich an Data Scientists, die sich gezielt im Bereich Data Privacy und Sicherheit weiterbilden möchten. Sie könnten dafür viele Gründe haben, wie etwa:

Ich könnte noch etliche weitere Beispiele anführen, und ich habe schon viele Menschen mit diesen unterschiedlichen Hintergründen getroffen. Eines kann ich Ihnen mit Sicherheit sagen: Die Nachfrage nach diesen Fähigkeiten steigt rapide an, und zwar nicht nur aufgrund neuer Vorschriften. Die Unternehmen investieren in diese Fähigkeiten, damit sie das Datenmanagement in eine sichere Zukunft führen können. Durch Investitionen in den Datenschutz können Unternehmen nicht nur teure Pannen vermeiden, sondern auch eine vertrauenswürdige Marke und Unternehmenskultur in Bezug auf das Datenmanagement schaffen, was sich positiv auf die Personalbeschaffung, das Marketing und die Haftung auswirkt.

image

Wenn Sie mit Python, Jupyter Notebooks, Mathematik und Statistik vertraut sind, werden Sie alle Abschnitte gut verstehen können. Sie können diesen tiefergehenden theoretischen und implementierungsorientierten Abschnitten folgen, aber bei der Lektüre auch weglassen, solange Sie die grundlegenden Konzepte verstehen.

Machen Sie sich keine Sorgen, wenn Sie sich schon länger nicht mehr mit Mathematik beschäftigt haben. Zu jedem der Beispiele habe ich Ihnen eine Erklärung mitgeliefert. Es wird Ihnen helfen, sich beim Durchlesen Zeit zu lassen.

Beim Schreiben dieses Buchs habe ich Feedback von Softwareentwicklerinnen und -entwicklern, Sicherheitsspezialisten und sogar Datenschutzanwälten erhalten, denen dieses Buch nützlich erschien. Obwohl diese Leute nicht meine Zielgruppe sind, hoffe ich, dass dieses Buch jedem helfen kann, der sich für Privacy und Technologie sowie deren Überschneidung in Datensystemen interessiert.

Beim Lesen dieses Buchs und beim Durcharbeiten der Übungen werden Sie sehen, wie Aspekte der Data Privacy die Wunder der Data Science hervorheben, die Sie bereits kennen und lieben. Wie in anderen herausfordernden Bereichen der Data Science führt Sie dieses Buch von einfachen Methoden für die Lösung im Bereich Privacy zu schwierigeren Methoden, von denen einige noch nicht vollständig gelöst sind. Genau wie bei der linearen Regression, die »einfach funktioniert«, möchten Sie mit einfachen und offensichtlichen Lösungen beginnen. Aber wenn die Lösung, die Sie benötigen, über die einfache Lösung hinausgeht, müssen Sie detailliertere Fragen stellen, die technische und ethische Implikationen haben. Diese Fragen zu finden und sie und ihre Antworten zu erforschen, wird Sie zu einem besseren Data Scientist und Technologen oder einer besseren Statistikerin und Mathematikerin machen.

Vielleicht ist dieses Buch alles, was Sie benötigen, um ein Technologe zu werden, der über ein paar zusätzliche Kenntnisse im Bereich Data Privacy verfügt. Das ist okay! Vielleicht ist dieses Buch aber auch das erste von mehreren Büchern, das Sie weiter in dieses Gebiet führt. Sollte das für Sie verlockend klingen, möchte ich Sie nun mit dem Konzept des Privacy Engineering vertraut machen.

Privacy Engineering

Ich gehe davon aus, dass der Bereich Privacy Engineering (https://oreil.ly/XENvQ) in den nächsten zehn Jahren weiter an Bedeutung gewinnen wird.3 Die Fähigkeiten, die Sie in diesem Buch erwerben, indem Sie die Übungen durcharbeiten und das neu erlangte Wissen auf Ihre Arbeit anwenden, werden Sie auf diese Rolle vorbereiten.

In Unternehmen, in denen Data Science ein wichtiger Bestandteil ist, ist ein Privacy Engineer zum Teil Data Scientist und zum Teil Engineer. Das bedeutet, dass Sie im Gegensatz zu anderen Rollen in der Data Science aktiv an der Entwicklung und Architektur von Lösungen arbeiten, anstatt Daten zu untersuchen oder eine Idee in einer experimentellen Umgebung zu testen. Das könnte bedeuten, dass Sie direkt mit den Data-Engineering-Teams, den Software- bzw. Anwendungsteams oder sogar den Systemarchitektinnen Ihres Unternehmens zusammenarbeiten, um sicherzustellen, dass Data Privacy sowohl in den Produkten als auch in den internen Anwendungen berücksichtigt wird. Dies gilt für alle Datenströme von Verbrauchern und Mitarbeitenden, für Software, die für das Datenmanagement verwendet wird, sowie für interne und externe Datenverwendungszwecke. Im Rahmen dieser Arbeit müssen Sie die Grundlagen der Technik und der Architektur verstehen, insbesondere was die Entwicklung von Systemen und die Integration von Systemen untereinander betrifft. Zu diesen Themen gibt es einige verwandte Bücher, mit denen Sie sich befassen können:

Um bestmöglich zu bestimmen, welche Tools und welche Software für ein Unternehmen geeignet sind, ist eine ausgeklügelte Architektur erforderlich. Die einfache Implementierung von Datenschutzrichtlinien durch Plug-and-play-Anbieter greift daher oft zu kurz, um diese Probleme zu lösen. Abgesehen davon bedeutet die wachsende Zahl von Anbietern von Datenschutztechnologien, dass Sie zum Entscheidungsträger werden, wenn es darum geht, Technologien zu entwickeln oder zu kaufen und für das Datenschutzmanagement einzusetzen. Dabei werden Sie die in diesem Buch gelernten Konzepte anwenden, um Bewertungskriterien aufzustellen, Fragen zur Implementierung zu stellen und die Flexibilität, den Support und die Produktmerkmale zu analysieren. In dieser Rolle werden Sie feststellen, wie gut potenzielle Anbieter die Anforderungen Ihres Unternehmens erfüllen können, da die Abhängigkeit von privaten, sensiblen und vertraulichen Daten wächst.

Ein Privacy Engineer ist nicht einfach nur ein weiterer Data Scientist oder Data Architect, der sich um die Einhaltung des Datenschutzes sorgt, letztlich aber keine Befugnis, keine Zeit und kein Budget zur Verfügung hat, Entscheidungen bezüglich Data Privacy treffen zu können. Es ist zwar erfreulich, dass das Engagement (engl. Advocacy) Teil der Rolle des Data Scientist geworden ist, aber beim Privacy Engineering geht es darum, Privacy-Techniken zu entwickeln und diese anzuwenden, wenn Daten eingespeist (engl. ingest), gesammelt, transformiert, gespeichert und schließlich in Data-Science-Anwendungen eingesetzt werden. Das Eintreten für Privacy mag vielleicht hilfreich sein, aber erst die Umsetzung erbringt den Beweis, dass diese Technologien funktionieren.

Ein Privacy Engineer ist auch nicht nur ein Data Engineer, der sich mit Privacy beschäftigt. Privacy Engineers können zwar mit Data Engineers zusammenarbeiten – und werden oft für ein Projekt oder ein Proof of Concept in ein Team eingegliedert –, aber sie müssen mit verschiedenen Teilen des Unternehmens zusammenarbeiten und werden in viele Projekte einbezogen, bei denen ihr Fachwissen gefragt ist. Als Spezialistinnen und Spezialisten sind sie nicht allzu lange an ein einzelnes Projekt oder einen Anwendungsfall gebunden. Ihr Wissen ist vielmehr eine ungeheuer wertvolle Ressource, die für die dringendsten geschäftlichen Fragestellungen im Zusammenhang mit Data Privacy eingesetzt werden sollte.

Das Berufsbild des Privacy Engineer ist noch nicht ausdefiniert begriffen und erfährt eine stetige Weiterentwicklung. Obwohl größere Technologieunternehmen mittlerweile aktiv Personal für diese Position einstellen, erinnert mich das Aufkommen dieser Berufsbezeichnung an das Aufkommen des Begriffs Machine Learning Engineer im Jahr 2018. Privacy Engineering – also der Umgang mit dem Datenschutz in der Praxis – ist eine relativ neue Qualifikation im Bereich Data Science, die sich aufgrund der Bedürfnisse und Anforderungen der Branche entwickelt. Ich bin gespannt, wie sich die Rolle des Privacy Engineer in zwei oder auch in zehn Jahren darstellen wird –, und hoffe, dass dieses Buch dazu beiträgt, ein paar weitere Menschen für diesen Bereich zu begeistern.

Warum ich dieses Buch geschrieben habe

Als das Thema Data Privacy für mich zum ersten Mal interessant wurde, kam es mir wie ein riesiges Labyrinth vor. Der Großteil der Materialien war für mich nicht verständlich, und die einführenden Leitfäden wurden oft von Menschen geschrieben, die mir ihre Software verkaufen wollten. Glücklicherweise kannte ich ein paar Leute in der Data-Privacy-Community, die mir dabei halfen, ein tieferes und umfassenderes Verständnis erlangen zu können. Es bedurfte vieler Stunden des Studiums und zahlreicher hilfsbereiter Personen, damit ich mich von einem neugierigen Data Scientist zu jemandem entwickeln konnte, der die Themen, die Sie in diesem Buch antreffen, beherrscht. Ich kann Ihnen verraten, ich lerne weiterhin jedes Jahr aufs Neue dazu und tauche tiefer in das Gebiet ein.

Ich bin davon überzeugt, dass die Fähigkeiten, die Sie in diesem Buch erlernen werden, heute und auch künftig für Data Scientists unerlässlich sind. Meine eigene Lernkurve verlief viel zu steil. Und genau das soll Ihnen dieses Buch ersparen. Ich habe dieses Buch geschrieben, um Ihnen eine ansprechende, schnelllebige und praxisorientierte Umgebung zu verschaffen, in der Sie dazulernen, Fragen stellen, hilfreiche Ratschläge finden und sich näher mit den anspruchsvollen Themen befassen können.

Dieses Buch ist als ein nützlicher Überblick gedacht, der Ihnen dabei hilft, den Datenschutz ohne Vorkenntnisse aktiv in Ihre Arbeit zu integrieren. Sie lernen gängige Strategien wie Pseudonymisierungs- und Anonymisierungsverfahren und neuere Ansätze wie Berechnungen auf Basis verschlüsselter Daten (Encrypted Computation) und Federated Data Science kennen. Wenn dieses Buch als Sprungbrett für Ihre akademische Karriere dient oder dazu verhilft, dass Sie als Forscherin tätig werden, wäre das großartig. Das Berufsfeld braucht intelligente und neugierige Menschen, die an ungelösten Problemen in diesem Bereich arbeiten möchten. Doch im Großen und Ganzen ist dieses Buch ein praxisorientierter Überblick, der, sollten Sie mehr wissen wollen, unterwegs Verweise liefert.

Data Scientists und Technologen, die Datenschutz- und Sicherheitsthemen in ihre tägliche Arbeit miteinbeziehen müssen, werden dieses Buch hilfreich finden. Es gibt einige Kapitel, die Ihnen als Kurzreferenz dienen, während Sie durch die Welt der Data Privacy navigieren. Wenn Sie das Buch von Anfang bis Ende lesen, werden Sie eine solide Kenntnis über die Materie erlangen und lernen, wie Sie neue, Ihnen zuvor unbekannte Datenschutzprobleme lösen können. Ein kurzes Nachschlagen liefert Ihnen unkomplizierte Ratschläge dazu, wie Sie mit bestimmten Datenschutznotfällen umgehen können, die in Ihrer täglichen Arbeit auftauchen.

Aufbau des Buchs

Dieses Buch soll Ihnen einen praktischen Ansatz für Data Privacy bieten und enthält eine Mischung aus Theorie, Übungen und Anwendungsfällen. Dabei gliedert es sich in die folgenden Kapitel:

Die im englischsprachigen Buch enthaltenen Links wurden der Einfachheit halber zu O’Reilly-URLs verkürzt. Diese URLs unterliegen nur einem Mindestmaß an Tracking und wurden auf Konformität mit der DSGVO und auf den Schutz der Privatsphäre überprüft. Sollte Ihnen dieses Maß an Tracking nicht zusagen, können Sie die vollständige Liste der URLs des englischsprachigen Buchs unter https://practicaldataprivacybook.com einsehen.

Neuerungen in der deutschsprachigen Ausgabe

Die deutsche Übersetzung dieses Buchs enthält einige zusätzliche Abschnitte und überarbeitete Passagen, um der zunehmenden Verbreitung von Large Language Models (LLMs) und GPT-basierten Anwendungen Rechnung zu tragen. Diese Ergänzungen sollen das Bewusstsein für Angriffe auf die Privatsphäre bei der Verwendung dieser Modelle schärfen und den aktuellen Stand der Technik in Bezug auf den Schutz bzw. die Bereitstellung datenschutzfreundlicher generativer KI-Dienste aufzeigen.

In diesem Buch verwendete Konventionen

Die folgenden typografischen Konventionen werden in diesem Buch verwendet:

Kursiv

Kennzeichnet neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateiendungen.

Konstante Zeichenbreite

Wird für Programmlistings und für Programmelemente in Textabschnitten wie Namen von Variablen und Funktionen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter verwendet.

Konstante Zeichenbreite, fett

Kennzeichnet Befehle oder anderen Text, den der Nutzer wörtlich eingeben sollte.

Konstante Zeichenbreite, kursiv

Kennzeichnet Text, den der Nutzer je nach Kontext durch entsprechende Werte ersetzen soll.

image

Dieses Symbol steht für einen Tipp oder eine Empfehlung.

image

Dieses Symbol steht für einen allgemeinen Hinweis.

image

Dieses Symbol warnt oder mahnt zur Vorsicht.

Verwenden von Codebeispielen

Zusätzliche Materialien (Codebeispiele, Übungen und so weiter) können Sie unter https://github.com/kjam/practical-data-privacy herunterladen.

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen veröffentlichen. Sie können diese Seite unter https://oreil.ly/practicalDataPrivacy aufrufen.

Dieses Buch dient dazu, Ihnen bei der Erledigung Ihrer Arbeit zu helfen. Im Allgemeinen dürfen Sie die Codebeispiele aus diesem Buch in Ihren eigenen Programmen und der dazugehörigen Dokumentation verwenden. Sie müssen uns dazu nicht um Erlaubnis bitten, solange Sie nicht einen beträchtlichen Teil des Codes reproduzieren. Beispielsweise benötigen Sie keine Erlaubnis, um ein Programm zu schreiben, in dem mehrere Codefragmente aus diesem Buch vorkommen. Wollen Sie dagegen eine CD-ROM mit Beispielen aus Büchern von O’Reilly verkaufen oder verbreiten, benötigen Sie eine Erlaubnis. Eine Frage zu beantworten, indem Sie aus diesem Buch zitieren und ein Codebeispiel wiedergeben, benötigt keine Erlaubnis. Eine beträchtliche Menge Beispielcode aus diesem Buch in die Dokumentation Ihres Produkts aufzunehmen, bedarf hingegen unserer ausdrücklichen Zustimmung.

Wir freuen uns über Zitate, verlangen diese aber nicht. Ein Zitat enthält Titel, Autor, Verlag und ISBN. Beispiel: »Data Privacy in der Praxis von Katharine Jarmul, O’Reilly 2024, ISBN 978-3-96009-233-9.«

Wenn Sie glauben, dass Ihre Verwendung von Codebeispielen über die übliche Nutzung hinausgeht oder außerhalb der oben vorgestellten Nutzungsbedingungen liegt, kontaktieren Sie uns bitte unter kommentar@oreilly.de.

Danksagungen

Zunächst möchte ich meinem Lebensgefährten Aaron Glenn für die langen Kaffeerunden, die Diskussionen und die tägliche Unterstützung danken, die die Entstehung und das Schreiben dieses Buchs ermöglicht haben. Wenn Sie mehr über Open Source, communitygetriebene und softwaregestützte Computernetzwerke erfahren möchten oder einfach nur neugierig sind, wie das Internet tatsächlich funktioniert, dann finden Sie seine Arbeit unter Predicted Paths (https://predictedpaths.com).

Meine Erfahrungen im Bereich der Datenschutztechnologie haben mich mit Menschen zusammengebracht, die mir mehr beigebracht haben, als ich mir je hätte vorstellen können. Vor allem meine Zeit mit dem »PETs«-Team bei Dropout Labs bzw. Cape Privacy (Morten Dahl (https://oreil.ly/WjCQt), Jason Mancuso (https://oreil.ly/jZUgU) und Yann Dupis (https://oreil.ly/d9myd)) brachte mir nicht nur eine der besten Arbeitserfahrungen meines Lebens, sondern ich habe auch all das gelernt, was ich über Encrypted Computation weiß. Morten, ich danke dir für deine Beiträge, die mir neue Denkanstöße zu den Themen Verschlüsselung und Machine Learning gegeben haben, für die zahllosen Stunden, die du mit Jamboarding und der Beantwortung von Fragen verbracht hast, und dafür, dass du der beste Nicht-Professor bist – der eigentlich Professor sein könnte –, von dem ich in meinem Leben lernen durfte. Jason, ich vermisse es, deine Gedanken über neue Durchbrüche im Bereich des Multitasking Learning zu hören und darüber, was du als Nächstes im Sinn hast, um das Privacy Preserving Machine Learning (PPML) zu revolutionieren. Yann, dein pragmatisches »Lass es uns einfach bauen und dann weitersehen« und deine unzähligen Erklärungen haben mir und unseren Kunden vor Augen geführt, wie diese Technologien nicht nur zu besseren Ergebnissen, sondern auch zu echten Datenschutzgarantien führen können. Die Zeit, die ich mit euch allen verbracht habe, werde ich immer in bester Erinnerung behalten.

Als ich zusammen mit Dr. Andreas Dewes KIProtect (https://kiprotect.com) mitbegründete, begann meine Reise in die Entwicklung von Datenschutztechnologien. Andreas, ich danke dir, dass du in diesen Jahren mein Sparrings-, Geschäfts- und Denkpartner warst! Ohne all das, was wir gemeinsam aufgebaut und gelernt haben, wäre ich heute nicht da, wo ich bin.

Ein besonderes Dankeschön geht an Damien Desfontaines (https://desfontain.es/serious.html), der mich zu Beginn des Verfassens dieses Buchs durch ein Bootcamp zum Thema Differential Privacy geführt hat. Damien, ich danke dir für die vielen Gespräche, für deine Beiträge zu diesem Thema und dafür, dass du ein bescheidener und wunderbarer Mensch bist. Deine Bereitschaft, dein Wissen zu teilen, deine Bemühungen, Open Source Differential Privacy in der Praxis nutzbar zu machen, und dein tolles Blog (https://desfontain.es/) sind von unschätzbarem Wert. Bleibe weiterhin so kämpferisch!

An die Technologen und guten Freundinnen und Freunde in meinem Leben, die mich gesund, motiviert und glücklich halten: Dr. Nakeema Stefflbauer (https://www.nakeema.net), Dr. Carma Lüdtke (https://oreil.ly/t91bF), Ellen König (https://www.ellenkoenig.de), Christine Cheung (https://www.xtine.net) und Sandy Strong (https://oreil.ly/Zs85P). Ich habe so viel Glück, dass ich euch alle kenne – danke, dass ihr mich durch alle Höhen und Tiefen des Lebens in dieser verrückten Welt begleitet habt. Ohne eure Inspiration hätte ich nicht die nötige Chuzpe, ein solches Buch zu schreiben.

Meiner Mutter und unermüdlichen, unbezahlten Lektorin danke ich dafür, dass sie sich durch meinen Text gekämpft und ihren Ruhestand damit verbracht hat, meine Passivsätze auszubessern. Ich wette, du hättest nie gedacht, dass du das auch 30 Jahre später noch korrigieren würdest! Es hat nicht wirklich geholfen, dass ich Deutsch gelernt habe; das tut mir leid. Ich könnte nie all die Dinge in Worte fassen, für die ich dir dankbar bin, doch an dieser Stelle kann ich dir zumindest für die Buchkorrekturen danken.

Meinem Vater und Cathy danke ich dafür, dass sie mich angespornt und an meine Arbeit geglaubt haben. Auf der Veranda zu sitzen und auf den Fluss zu schauen, hat mir geholfen, den Kopf freizubekommen, während ich einige der schwierigsten Abschnitte dieses Buchs verfasst habe. Auch die Pausen, in denen ich mit den Welpen gespielt habe, spazieren gegangen bin und ein Glas Wein getrunken habe, haben geholfen!

An Dai und Rhys – ihr seid immer da, wenn es darum geht, mich zu motivieren – sowohl in den sozialen Medien als auch im echten Leben! Wie schön, dass ihr mir in Zeiten, in denen Projekte wie dieses Buch etwas entmutigend wirken, so viel positive Energie schenkt.

An meine Lektorin und meinen Lektor bei O’Reilly: Rita Fernando und Andy Kwan. Rita, vielen, vielen Dank für die ganzen Anregungen, Ratschläge und die Geduld, während ich herausgefunden habe, wie und worüber ich dieses Buch schreibe. Ich werde unsere Gespräche vermissen und hoffe, dass wir uns irgendwann einmal im »richtigen« Leben sehen können. Andy, du warst der Erste, der an dieses Buch geglaubt hat – danke, dass du ihm eine Chance gegeben hast!

An meine Fachgutachter Natalie Beyer (https://www.lavrio.solutions), Clarence Chio (https://cchio.org) und Timothy Yim (https://oreil.ly/XkAgF): Natalie, vielen Dank, dass du mir deine Sicht auf die Data Science gezeigt und mir Feedback gegeben hast. Das hat mir geholfen, die unverständlichen Stellen in diesem Buch zu vereinfachen, und das wird im Idealfall vielen Data Scientists dabei helfen, ihren Weg zu gehen. Clarence, ich bin ein großer Fan deiner Arbeit über Adversarial Machine Learning. Es war mir eine Ehre, deine durchdachten Beiträge und deine jahrelange Erfahrung auch in dieses Buch einfließen zu lassen. Timothy, deine Expertise hat dazu beigetragen, die Ratschläge in den ersten Kapiteln zu Governance und Einwilligungsworkflows zu verdeutlichen – vielen Dank dafür!

Ich danke auch meinen Kolleginnen und Kollegen bei Thoughtworks, die mich unterstützt haben, indem sie mir zugehört haben, wenn ich laut nachgedacht habe, die mich durch interessante Fragen und neue Ideen zum Nachdenken gebracht haben, die mir geholfen haben, mich weiterzubilden und zu arbeiten, indem sie mich auf meinem Weg ermutigt und mir Feedback gegeben haben, und die mir geholfen haben, meine Ideen zu dem zu entwickeln, was in diesem Buch steckt. Besonderer Dank gilt Chris Ford (https://oreil.ly/eJOEG), der ebenfalls als Fachgutachter fungierte, sowie Enrico Massi (https://oreil.ly/nNNny) und Lisa Junger (https://oreil.ly/EKQn5), die durch ihre regelmäßigen Unterhaltungen und ihr Fachwissen dazu beigetragen haben, die in diesem Buch dargelegten Sicherheitsprobleme greifbar und präzise wiederzugeben. Weiterer Dank geht auch an Clara Brünn (https://oreil.ly/xmgYP), die mir wertvolles Feedback und interessante Einblicke in ihre eigene Arbeit und ihre Erfahrung im Bereich der Data Science gegeben hat, sowie an Mitchell Lisle (https://oreil.ly/16N7v) und Menghong Li (https://oreil.ly/oqe4z), deren Interesse für Privacy Engineering viele neue Ideen in mir geweckt und zu der »Reconstruction Attack« auf die Datenbank des Repositorys des Buchs geführt hat – vielen Dank! Meiner »Nicht-Chefin« Emily Gorcenski (https://oreil.ly/ViIc5), die mir Unterstützung und Zeit zum Schreiben gab und mein Denken über die Verflechtung von Datenschutz und Strategie angeregt hat. Und ein herzliches Dankeschön an Sowmya Ganapathi Krishnan (https://oreil.ly/rMA6q), Nimisha Asthagiri (https://oreil.ly/l8trh) und Erin Nicholson (https://oreil.ly/sVZmW), deren eigene Leidenschaft für Sicherheits- und Datenschutztechnologien und wirklich erstaunliche neue Freundschaften mir auf dem langen Weg geholfen haben, dieses Buch von einer Idee in den Druck zu bringen.

An meine Fachautoren vielen Dank dafür, dass ihr mich motiviert habt und mich an euren Ideen, eurem Feedback und euren eigenen Wegen habt teilhaben lassen! Obwohl unsere engen Terminkalender uns nur wenige Treffen erlaubten, hat mir das Team dabei geholfen, die anfänglichen Schwierigkeiten beim Schreiben zu überwinden und wieder in einen geregelten Schreibfluss zu kommen.

An Freddie Hubbard und Beyoncé, deren Songs mir durch die frühen Morgenstunden und späten Nächte geholfen haben.

An meine Nichte Charlotte, an mein Patenkind Neorth, an Ragnar und Horik – ich hoffe, dieses Buch ist ein kleiner Tropfen einer Welle der Veränderung. Ich hoffe, dass ihr in einer Welt aufwachsen werdet, in der Privatsphäre ein Grundrecht für jeden ist, unabhängig davon, wer er ist oder wo er lebt.