1Eine Auflistung der URLs ohne Abkürzungen finden Sie unter https://practicaldataprivacybook.com.
2Für den englischen Begriff Privacy gibt es im Deutschen unterschiedliche Übersetzungen. In diesem Buch wurde er je nach Kontext als Privatsphäre oder Datenschutz übersetzt. Dabei bezieht sich (Schutz oder Wahrung der) Privatsphäre auf den persönlichen Raum und die Freiheit vor unerwünschter Einmischung oder Überwachung. Datenschutz dagegen konzentriert sich eher auf den Schutz personenbezogener Daten vor Missbrauch oder unerlaubter Verwendung.
3Anmerkung: In der Regel vermeide ich es, Vorhersagen zu treffen, da man oft falsch liegt. Diese hier basiert jedoch auf den Erfahrungen, die ich in den letzten sechs Jahren in der Branche gewonnen habe.
1In der deutschen Übersetzung des englischsprachigen Originals ist meist von Unternehmen die Rede, um Ihren Arbeitsplatz zu beschreiben. Je nachdem, ob Sie in einem kleinen agilen Data-Science-Beratungsunternehmen, einem großen Konzern, einer staatlichen Behörde bzw. Einrichtung oder auch in einer mittelgroßen gemeinnützigen Organisation arbeiten, sollen Sie sich gleichermaßen angesprochen fühlen und werden sicherlich ganz unterschiedliche Erfahrungen machen. Dieses Buch soll für alle Zielgruppen von Nutzen sein. Übernehmen Sie die Ratschläge und Erkenntnisse, wenden Sie Ihr eigenes Wissen über Ihre Tätigkeit an und bringen Sie sie mit Ihrer Unternehmensgröße und -kultur in Einklang.
2Privacy by Design steht für eine Reihe von Grundsätzen, die von Ann Cavoukian ausgearbeitet wurden und die sicherstellen sollen, dass die Architektur von Systemen und die Entwicklung von Softwarelösungen von Anfang an auf den Datenschutz bzw. den Schutz der Privatsphäre ausgerichtet sind. Den Ausdruck werden Sie häufig in Gesprächen mit erfahrenen Governance-Fachleuten hören. Ich empfehle Ihnen, sich die Zeit zu nehmen, diese Grundsätze durchzulesen und zu überlegen, wie sie sich auf Ihre eigene Arbeit mit Daten anwenden lassen. Sie finden diese Grundsätze in Kapitel 11.
3In Ihrem Unternehmen wird möglicherweise eine eigene Definition dazu verwendet, was unter sensiblen Daten zu verstehen ist, die von der in diesem Buch verwendeten Definition abweicht. Stellen Sie sicher, dass Sie intern die passenden Termini verwenden, wenn Sie das Thema ansprechen.
4Diese Studie wurde von einigen der Forscher veröffentlicht, die später an Cambridge Analytica gearbeitet haben. Siehe Kosinki et al., »Private traits and attributes are predictable from digital records of human behavior« (https://oreil.ly/ZZCnR), 2013.
5Im Idealfall handelt es sich dabei entweder um eine separate, leicht verknüpfbare Tabelle, oder die Zeilen selbst haben zusätzliche Spalten oder Attribute, die das Auffinden erleichtern. In Kapitel 3 werden Sie noch ein konkretes Beispiel dafür kennenlernen.
6Wenn Ihr Unternehmen ein älteres On-Premise-System nutzt, das diese Funktionen nicht bietet, könnten Sie über eine einfache Lösung nachdenken, z.B. regelmäßige Snapshots von Daten, die für bestimmte Aufgaben verwendet werden können, und Tools, mit denen Sie die Snapshots bei Bedarf einfach laden oder austauschen können. Viele Versionierungstools, wie etwa DVC, erweitern auch ihre Unterstützung für selbst gehostete und On-Premise-Systeme.
7Disclaimer: Ich war Mitgründerin von KIProtect und war an den ersten Implementierungen dieser Bibliothek beteiligt. Mittlerweile wirke ich jedoch nicht mehr an dem Unternehmen oder der Bibliothek mit.
1Aus dem Merriam-Webster-Dictionary, abgerufen im Januar 2022.
2Siehe Dwork et al., Calibrating Noise to Sensitivity in Private Data Analysis, 2006 (https://oreil.ly/DDRha).
3Neben dem zuvor erwähnten Forschungsartikel sollten Sie auch »Differential Privacy« von Dwork (Microsoft Research, 2006) (https://oreil.ly/JGyXe) und Dwork und Roths Veröffentlichung The Algorithmic Foundations of Differential Privacy (2014) (https://oreil.ly/Bkt4H) lesen. Diese ist online frei verfügbar.
4Zur Erinnerung: Der Satz von Bayes (https://oreil.ly/qlsup) definiert bedingte Wahrscheinlichkeiten auf der Grundlage von Beobachtungen und bekannten bzw. wahrscheinlichen Bereichen von Ereignissen. Mit dem Satz von Bayes können Sie A-posteriori-Wahrscheinlichkeiten (neue Vermutung bzw. beste Schätzung) berechnen und diese verwenden, um Ihre A-priori-Wahrscheinlichkeiten (alte Vermutungen bzw. beste Schätzungen) zu aktualisieren.
5Sie müssen nicht unbedingt die bayessche Theorie studiert haben, um das Folgende zu verstehen. Es ist jedoch hilfreich, bei der Bestimmung des Informationsgewinns und des daraus resultierenden Privacy Loss über A-priori- und A-posteriori-Wahrscheinlichkeiten nachzudenken. Sollte dies neu für Sie sein, können Sie sich mit der Theorie dank zahlreicher Publikationen von O’Reilly und frei verfügbaren Onlineblogs, Lehrbüchern und Onlinevideokursen vertraut machen – suchen Sie sich das Angebot aus, das Sie anspricht!
6Einen Beweis hierfür können Sie in Damien Desfontaines’ Blogpost (https://oreil.ly/_4Mhy) nachvollziehen.
7Schon bevor das US Census Bureau diese Methode veröffentlichte, wusste ich von mehreren Datenteams, die bayessche und andere statistische Verfahren einsetzten, um Direktmarketing auf der Grundlage von Zensusdaten in Kombination mit Verbraucherdatenbanken zu betreiben. Führen Sie sich vor Augen, was Sie bereits aus Kundendatenbanken ableiten können, insbesondere mithilfe von Filtermechanismen, die das bisherige Kauf- oder Surfverhalten beleuchten, um präzise Rückschlüsse auf das Einkommen, den Familienstand oder das Geschlecht zu ziehen, und kombinieren Sie diese Daten dann mit öffentlich zugänglichen Daten – äußerst aufschlussreich und ziemlich erschreckend, wenn Sie daran denken, welche Auswirkungen das haben kann! Weitere Informationen hierzu erfahren Sie in Kapitel 4.
8Der Grund, warum ein zusätzliches Delta für ein gaußsches Rauschen benötigt wird, liegt darin, dass sich die Wahrscheinlichkeitsverteilung signifikant unterscheidet, wodurch die Wahrscheinlichkeit bzw. das Risiko, bei Abgabe einer Antwort mehr Informationen zu enthüllen, im Vergleich zu einem Laplace-verteilten Rauschen zunimmt. Wenn Sie sich eingehender mit diesem Phänomen befassen möchten, empfehle ich Ihnen, sich den Blogbeitrag von Desfontain (https://oreil.ly/JpmCr) zu diesem Thema durchzulesen.
9Ein Beispiel hierfür ist Facebooks Veröffentlichung von Nutzeraktivitäten (https://oreil.ly/jHFez), die über einen Differential-Privacy-Mechanismus erstellt wurde, der auf der Ebene von Einzelaktionen ansetzt (engl. Action-level Differential Privacy Mechanism).
10Wenn Sie sich auf dem Gebiet der Differential Privacy über interessante Forschungsbeiträge oder neue Entwicklungen informieren möchten, sollten Sie einen Blick auf Fachkonferenzen werfen, die sich mit dem Thema Privacy befassen, wie z.B. dem Privacy Enhancing Technologies Symposium (PETS) (https://oreil.ly/iC9v4), der USENIX Conference on Privacy Engineering Practice and Respect (PEPR) (https://oreil.ly/DeHye) oder Privacy-preserving-Machine-Learning-(PPML-)Konferenzen wie der von der Association for Computational Linguistics (ACL) (https://oreil.ly/m0s1t) oder der International Association for Cryptologic Research (IACR) (https://oreil.ly/H8iON). Abgesehen davon ist der Datenschutz heute ein wichtiges Thema für alle Technologinnen und Technologen, daher werden auf vielen verschiedenen Konferenzen immer wieder neue Forschungsartikel vorgestellt.
1Falls Sie normalerweise nicht im Bereich Data Engineering arbeiten oder für die Infrastruktur zuständig sind, empfehle ich Ihnen, sich anhand von Büchern, Videos oder Blogbeiträgen über Datenpipelines und Datenarchitektur mit den Grundlagen vertraut zu machen.
2Ein Smell Test (https://oreil.ly/rnO2I) bedeutet in der Informatik, dass die Qualität des Codes bewertet wird. Damit soll beurteilt werden, ob die Datenschutzstandards ordnungsgemäß durchgesetzt und im gesamten Unternehmen und in den zahlreichen Datenströmen angewandt werden.
3Daten auf Ebene von Nutzern auszuwerten, ist im Hinblick auf den Datenschutz nie eine gute Idee, jedoch gängige Praxis in Marketingabteilungen. Wenn derartige Anliegen im Rahmen Ihrer Arbeit an Sie herangetragen werden, müssen Sie für sich selbst entscheiden, welchen Rat Sie am besten geben. Meiner Meinung nach lassen sich Marketingfragen meist auf Basis von aggregierten Daten beantworten (die je nach Zielgruppe und Weiterverbreitung sogar von einer zusätzlichen Differential Privacy profitieren könnten).
4Ich empfehle Ihnen, Vitaly Friedmans Beitrag »Privacy UX: Better Cookie Consent Experiences« im Smashing Magazine (https://oreil.ly/HE4NK) zu lesen und sich mit Ihrem UX-Team darüber zu beraten, welche Änderungen in Ihrem Unternehmen vorgenommen werden sollten.
5Auch wenn Apple in Bezug auf die Einführung von Datenschutztechnologien marktführend ist, bedeutet das nicht, dass es nicht auch Beispiele gibt, in denen das Unternehmen bei der Erhebung von Daten den gleichen Weg wie viele andere Tech-Unternehmen einschlägt. Ein zum Zeitpunkt des Verfassens dieses Buchs laufender Rechtsstreit stellt das Marketing von Apple, das den Schutz der Daten betont, infrage (https://oreil.ly/gysAJ). Es wird argumentiert, dass es nicht wirklich möglich ist, die Weitergabe aller Daten zu unterbinden. In diesem Buch erfahren Sie, wie Sie Ihre Nutzerinnen und Nutzer auf einvernehmlichere Weise darüber informieren können, dass ihre Daten gespeichert werden, wie Sie Nutzer durch eine datenschutzfreundliche Gestaltung stärker in den Vordergrund stellen und wie Sie sie besser in die Lage versetzen, selbst über ihre Daten zu bestimmen.
6Es gibt verschiedene Varianten von Randomized-Response-Techniken, darunter welche, bei denen Würfel oder Karten zum Einsatz kommen oder bei denen eine Münze ein zweites Mal geworfen wird. Der Kürze halber stelle ich Ihnen hier aber nur die einfachste Version vor. Wenn Sie jedoch mehr darüber erfahren möchten, empfehle ich Ihnen, sich mit Randomized-Response-Techniken zu beschäftigen, die bei Umfragen zum Einsatz kommen.
7Weitere Tipps zum Aufbau einer Datenschutzkultur finden Sie in Kapitel 15 des Buchs Agile Application Security von Laura Bell et al. (O’Reilly, 2017) (https://oreil.ly/YNS4v).
1Natürlich sind Ihre eigenen Gmail-Kontodaten definitiv einmalig! Was ich hier meine, ist, dass die Nutzung von Gmail an sich nicht einzigartig ist.
2Zur Erinnerung: Wenn Sie Daten veröffentlichen, sollten Sie sich vorher genau überlegen, wie Sie sie schützen und wie Sie das Verfahren beschreiben, das zum Schutz der Daten verwendet wird. Die Behauptung, etwas sei anonymisiert, führt dazu, dass sich Sicherheits- und Datenschutzforscher aufgefordert fühlen werden, das Gegenteil zu beweisen.
3Dies wirft in der Tat die Frage auf, wie zufällig die Stichprobe zu Beginn war und ob Netflix die Daten vorverarbeitet hat, um die Gruppe der besonders aktiven Nutzer zu segmentieren. Wie Sie bereits aus Kapitel 2 wissen, sind Ausreißer einem größeren Risiko ausgesetzt, identifiziert zu werden.
4Wenn Sie Lust und Zeit haben, lesen Sie den Artikel »KHyperLogLog: Estimating Reidentifiability and Joinability of Large Data at Scale« (https://oreil.ly/MSc1L), oder werfen Sie einen Blick auf eine visuelle Darstellung des KHyperLogLog-Algorithmus (https://oreil.ly/tVuzZ), um mehr darüber zu erfahren, wie dies im Detail funktioniert.
5Salt sind zufällige Daten, die zum Schutz von Einweg-Hashwerten (engl. One-Way Hashes) vor Rainbow- bzw. Regenbogentabellen oder vorberechneten Angriffen verwendet werden. Um zu gewährleisten, dass Einweg-Hashwerte sicher sind, benötigen Sie eine kryptografisch sichere Pseudozufallsgenerierung, die durch ein Salt herbeigeführt wird, vorausgesetzt, die verwendete kryptografische Bibliothek wird gut gepflegt.
6Diese Art der Datenerhebung bietet keine strengen Privacy-Garantien wie Differential Privacy. Es handelte sich um eine freiwillige Angabe, und die Verantwortlichen haben die ihnen zur Verfügung stehenden Möglichkeiten ausgeschöpft, um den Fragebogen so auszugestalten, dass die Privatsphäre der Teilnehmenden möglichst geschützt bleibt. Für diese Art von Anwendungsfällen wäre es wünschenswert, wenn eine Infrastruktur geschaffen würde, die Anonymität und Differential Privacy gewährleistet und zugleich die Möglichkeit bietet, sensible Daten dafür zu nutzen, für mehr Gleichberechtigung und Fairness einzutreten.
7Diese Daten wurden im Jahr 2017 veröffentlicht, wobei sie bereits zuvor erhoben wurden. Mehrere andere Studien und Initiativen, die in großen US-Technologieunternehmen durchgeführt wurden, haben ähnliche Gehaltsunterschiede oder andere Faktoren aufgedeckt, durch die Frauen und Angehörige geschlechtsspezifischer Minderheiten benachteiligt werden – wie zum Beispiel eine Überrepräsentierung in Junior-Positionen. Einige aktuellere Studien zeigen jedoch, dass sich dieser Trend umkehrt. Frauen und Angehörige geschlechtsspezifischer Minderheiten verdienen in höheren Positionen inzwischen mehr als ihre männlichen Kollegen, doch in den Juniorpositionen sind diese nach wie vor überrepräsentiert. Wenn solche Daten in einer einvernehmlichen und datenschutzfreundlichen Weise analysiert werden, kann dies dazu beitragen, eine unfaire und ungleiche Behandlung aufzudecken und festzustellen, ob Maßnahmen zur Förderung von Vielfalt und Gleichberechtigung greifen.
8Falls GANs für Sie neu sind: Die Grundidee ist, dass sie zwei Machine-Learning-Modelle haben. Das eine versucht, eine Entscheidung auf der Grundlage des Outputs des anderen zu treffen, mit der versucht wird, den Fehler des ersten Modells zu korrigieren. GANs werden verwendet, um verschiedenste Arten von Inhalten und Medien zu generieren – von mithilfe von Machine Learning generierten Kunstwerke bis hin zu generierten Texten, Bildern oder Videos, einschließlich Inhalten wie Deep Fakes.
9Cambridge Analytica schaltete politische Anzeigen auf Plattformen wie Facebook (https://oreil.ly/ANM31), die darauf abzielten, die Wähler beim britischen Brexit-Referendum und bei den US-Präsidentschaftswahlen 2016 zu beeinflussen. Es lässt sich nur schwer abschätzen, wie erfolgreich diese gezielten Werbeanzeigen wirklich waren. Für das Profiling wurden jedoch persönliche Merkmale wie das Wahlverhalten und die politische Einstellung verwendet, die aus Facebook-Likes und Profildaten abgeleitet wurden.
10Wenn Sie mehr über diese Ansätze erfahren möchten, empfehle ich Ihnen, einen Blick auf den Ansatz von Tumult Labs (https://oreil.ly/6SG26) oder einen Artikel von Google (https://oreil.ly/Sdwqy) zu werfen, in dem beschrieben wird, wie Rauschen auf sichere Weise erzeugt werden kann.
11Das Buch von Douglas Hubbard und Richard Seiersen, How to Measure Anything in Cybersecurity Risk (Wiley, 2016), vermittelt einen guten Überblick darüber, wie die Sicherheitscommunity an die datengestützte Risikobewertung herangeht. Auch wenn die empfohlenen Methoden im Vergleich zu den heutigen Methoden der Datenanalyse und Wahrscheinlichkeitsrechnung etwas veraltet sind, wird der grundlegende Ansatz ein besseres Verständnis dafür vermitteln, wie Cybersicherheitsexperten in ihrer täglichen Arbeit mit der Bewertung einer großen Anzahl potenzieller Risiken auf der Grundlage weniger Daten umgehen.
1Die meisten Durchsetzungsmaßnahmen im Rahmen der DSGVO haben sich auf eindeutige Verstöße bei der Datenerhebung und -nutzung konzentriert, aber es wird erwartet, dass sie sich mit der Ausweitung der Durchsetzung auch auf potenzielle neue Bedrohungen wie die Nutzung und Verarbeitung von Daten im Zusammenhang mit Machine Learning und KI erstrecken werden. Da es sich bei PPML um ein neues Forschungsgebiet und eine relativ neue Methode handelt, gibt es noch keine klaren Richtlinien für den Aufbau DSGVO-konformer Modelle. Die DSGVO fordert jedoch, dass der »Stand der Technik« berücksichtigt wird, um die Anforderungen des Datenschutzes mit den Anforderungen der Datennutzung in Einklang zu bringen. Aus diesem Grund konzentriert sich dieses Kapitel darauf, Ihnen die aktuellen Best Practices zu vermitteln und Ihnen eine Grundlage zu bieten, mit den neuen Entwicklungen Schritt halten zu können, während sich das Forschungsgebiet weiterentwickelt. Wie bei allen in diesem Buch vorgestellten Methoden sollten Sie sich bei den juristisch Verantwortlichen und Datenschutzbeauftragten Ihres Unternehmens erkundigen, ob der jeweilige Ansatz konform ist oder nicht.
2Anm. d. Übersetzers: Diese werden – je nach fachlichem Hintergrund – auch als Feature-Vektoren, Merkmale, Merkmalsvektoren oder unabhängige Variablen bezeichnet.
3Eine Perturbation einer Zahl oder eines anderen Datentyps (Datum, Zeichenkette) kann durch Hinzufügen von Rauschen oder eine direkte Veränderung der Daten erfolgen. Scrambling kann hingegen entweder innerhalb des Datentyps (z.B. durch Vertauschen der Buchstaben in einem Wort) oder in Bezug auf den Zeileninhalt (z.B. durch Vertauschen des Datums in einer Zeile mit dem Datum in einer anderen Zeile) erfolgen. Allerdings handelt es sich bei beiden um relativ schwache Datenschutzmaßnahmen, die unter die Kategorien Pseudonymisierung und/oder Obfuskation fallen.
4Google verwendet Federated Learning mit einer sicheren Aggregierung (engl. Secure Aggregation) (https://oreil.ly/FrRjc), um sicherzustellen, dass diese Art von Text nicht in Modelle einfließt, die zur Vorhersage von Texten verwendet werden. In den Kapiteln 6 und 7 werden Sie noch mehr über diesen Ansatz erfahren.
5Gleiches gilt auch, wenn mehrere Iterationen im Rahmen des Trainings bzw. im Rahmen der Parameteroptimierung durchgeführt werden, da das Epsilon über alle Trainingsepochen und auch weitere Iterationen zur Parameteroptimierung aufgeteilt werden muss.
6Jüngste Forschungsartikel haben weitere Optimierungen vorgestellt, darunter ein Artikel von Google, der zeigt, wie die Berechnung des Privacy Loss verbessert werden kann (https://oreil.ly/R4Yni), und ein Artikel von DeepMind zur Optimierung des DP-SGD, wenn er in großem Maßstab eingesetzt werden soll (https://oreil.ly/099eC).
7Die meisten der ursprünglich an diesem Artikel beteiligten Forscherinnen und Forscher, darunter Timnit Gebru und Margaret Mitchell, wurden später aufgrund verwandter Untersuchungen über Googles eigene unfaire und umweltschädliche Machine-Learning-Praktiken beim Training und bei der Verbreitung großer Sprachmodelle (https://oreil.ly/0nQsM) von Google entlassen (https://oreil.ly/T63w4).
1In diesem Kapitel verwende ich den Begriff Edge für den »Rand« Ihrer Graphen oder Netzwerke, d.h. für die Knoten, die so weit wie möglich entfernt sind, auf die Sie zugreifen bzw. die Sie »sehen« können. Dies ist ein Aspekt des Edge Computing (https://oreil.ly/vcNsn), bei dem die Verarbeitung auf Geräte verlagert wird, die nicht speziell für die groß angelegte zentrale Datenspeicherung und -berechnung konzipiert sind.
2Mehr zu seiner Arbeit erfahren Sie über seine Nichtregierungsorganisation NOYB (https://noyb.eu/en), die sich für die Datenschutzrechte aller EU-Bürger und für Datenschutzaktivismus und -bewusstsein weltweit einsetzt. Mehr zu diesem und verwandten Themen erfahren Sie außerdem in Kapitel 8.
3Die Haltung des Messengers Signal, so wenige Daten wie möglich über seine Nutzerinnen und Nutzer sowie deren Aktivitäten zu speichern, können Sie zum Beispiel gut auf ihrer Seite »Big Brother Requests« (https://oreil.ly/5w08g) nachvollziehen.
4Eine Menge an Zufallsvariablen gilt als unabhängig und identisch verteilt (iid), wenn die Variablen einerseits identisch verteilt sind, d.h. aus derselben sich nicht verändernden Wahrscheinlichkeitsverteilung stammen, und wenn sie andererseits unabhängig sind, d.h. sich nicht gegenseitig beeinflussen.
5Eine Übersicht über ausgeklügelte Anwendungen der Federated Collaboration, die vor Federated Learning entwickelt wurde, finden Sie in einem Artikel von Shokri et al. aus dem Jahr 2012, in dem beschrieben wird, wie sich Standortdaten mithilfe der Kollaboration von Geräten verbergen lassen (https://oreil.ly/6RKdh). Zudem boten sich auch neue Möglichkeiten für SQL-basierte verteilte Daten und föderale Analysen, wie z.B. Microsofts Forschung zu Federated Search (https://oreil.ly/EpUhi). Darüber hinaus hat Snip im Jahr 2016 einen Home Assistant (https://oreil.ly/38Qg_) zur Anwendung gebracht, bei dem im Rahmen der Datenerhebung und -analyse Differential Privacy zum Einsatz kam. Ferner hat er, wie in einem seiner Forschungsbeiträge (https://oreil.ly/nW-AN) nachvollzogen werden kann, verschiedene Anwendungsfälle beim Federated Learning erprobt.
6Wenn Sie sich entscheiden, diese Thematik weiter aufzugreifen, sollten Sie sich eine Reihe von Forschungsbeiträgen zu Adversarial Learning (https://oreil.ly/z9DOq) in föderalen und nicht föderalen Umgebungen sowie mehrere interessante Codeimplementierungen (https://oreil.ly/8UvHt) ansehen.
1Das Unternehmen wurde im November 2021 für eine nicht genannte Summe von Coinbase akquiriert, um die Wallets der Nutzer besser zu schützen.
2Ja, dazu gehören auch Quantencomputer. Allerdings kann eine Implementierung gegebenenfalls nicht der theoretisch zugrunde gelegten Sicherheit entsprechen. Daher sollten Sie Vorsicht walten lassen, wenn für eine Implementierung kein Nachweis vorliegt, dass sie informationstheoretische Sicherheit bietet und quantensicher ist. Mehr dazu werden Sie noch in Kapitel 10 erfahren.
3Die meisten der heutzutage von Kryptografen verwendeten Implementierungen bieten eine effiziente Sicherheit, darunter auch Protokolle, die quantensicher sind. Übrigens ändert Quantencomputing selbst nichts an dieser Einteilung. Es bedeutet lediglich, dass ein anderer, teurerer Computer verwendet wird.
4Interessanterweise wurden einige der ersten MPC-Protokolle von denselben Kryptografen entwickelt, die auch den RSA-Algorithmus entwickelten, den Sie wahrscheinlich schon einmal benutzt haben, als Sie sich ein Public-Private-Key-Paar für Ihren Computer haben erzeugen lassen.
5Von Nigel Smart gibt es auch ein unterhaltsames und informatives Einführungsvideo zum Thema Secure Multiparty Computation (https://oreil.ly/dpkuy), das für den OpenMined-Privacy-Kurs, in dem er eine Einführung in die Technologie gibt und relevante Anwendungsfälle aus seiner jahrzehntelangen Arbeit auf diesem Gebiet behandelt, aufgezeichnet wurde.
6Beachten Sie, dass zur Division von Teilgeheimnissen mehr Schritte erforderlich sind als nur die Ermittlung der multiplikativ Inversen. Eine genaue Beschreibung der einzelnen Schritte finden Sie in dem Artikel »Secure integer division with a private divisor« (https://oreil.ly/9HeuQ).
7Dies ist nicht die einzige Möglichkeit, das Geheimnis in einem Polynom zu verstecken. Eine ausführlichere Übersicht finden Sie in der bereits zuvor genannten Beitragsreihe von Morten Dahl zum Secret Sharing (https://oreil.ly/hKtu-).
8Falls Sie mehr darüber erfahren möchten, lohnt es sich, einen Blick auf einen einführenden Beitrag zur Implementierung von MPC als Teil von datenstromorientierten Programmen (https://oreil.ly/CKVpr) zu werfen, in dem einige der Herausforderungen bei der Implementierung dieser Protokolle für die TensorFlow-Bibliothek von Google beschrieben werden. Für einen Vergleich verschiedener Bibliotheken im Rahmen realer datenwissenschaftlicher Anwendungsfalle sollten Sie sich die Benchmarks für das Moose-Framework und das MP-SPDZ-Protokoll bei Tensoroperationen und der logistischen Regression (https://oreil.ly/F_mlp) ansehen.
9Sie denken wahrscheinlich nicht oft über die Schaltungstiefe Ihrer Operationen nach. Sie können sich dies als Komplexität eines Graphen bzw. einer Funktion vorstellen. Die Schaltkreiskomplexität bzw. -tiefe ist auf einer niedrigeren Ebene anzusiedeln, hat jedoch ähnliche Eigenschaften und Implikationen für die Berechnungen.
10OpenMined hat auf YouTube eine Präsentation (https://oreil.ly/rUZYW) hochgeladen, in der diese Abgrenzungen noch eingehender erläutert werden.
11Eine der ersten Forschungsarbeiten hierzu wurde von Cynthia Dwork (https://oreil.ly/MJ5O2) mitentwickelt, von der Sie bereits in Kapitel 2 aufgrund ihrer grundlegenden Beiträge zur Differential Privacy gehört haben.
12Pascal Paillier präsentierte seine eigenen Prognosen (https://oreil.ly/7dpFA), die er für den OpenMined-Privacy-Kurs aufgezeichnet hatte. Inzwischen ist er CTO von Zama und hat einen guten Einblick in die Herausforderungen und Möglichkeiten, die noch vor uns liegen.
13MPC sollte bei derartigen Konstellationen immer bevorzugt werden, da es für diese gemeinsamen Operationen sicherer und performanter ist.
14Alice und Bob sind häufig verwendete Charaktere in der Kryptografie (https://oreil.ly/K5i-6) – zusammen mit einer Vielzahl von Nebencharakteren wie Eve (ähnelt dem englischen Wort eavesdropping, was »abhören« bzw. »belauschen« bedeutet). Durch die Darstellung von Anwendungsfällen mithilfe von Charakteren können Kryptografen und Sicherheitsanalysten besser nachvollziehen, welche Probleme ein Protokoll anspricht. Zudem eignen sie sich als gute Grundlage für lustige Witze (https://xkcd.com/1323).
15Wenn Sie mehr über die Performancemetriken, Details zum Protokoll, das ursprüngliche Design und die dahinterstehende Motivation erfahren möchten, empfehle ich Ihnen, sich den Forschungsbeitrag (https://oreil.ly/NJ32W) durchzulesen. Als sie eingeführt wurde, hatte die Bibliothek ein modifiziertes SPDZ-Protokoll (https://oreil.ly/-3C6V). Später fügte das Sicherheitsteam von Alibaba eine Unterstützung für das ABY3-Protokoll (https://oreil.ly/xdz7i) hinzu, das dafür sorgt, dass zahlreiche Machine-Learning-Operationen optimiert werden.
16Auch wenn diese Laufzeitumgebung derzeit noch nicht implementiert ist, könnte sie aktive Sicherheitsprotokolle unterstützen und die Berechnungen überprüfbar machen.
1Die Praxis, IDs, Schlüssel zur Datenverknüpfung oder PII zu entfernen, aber alle anderen zugehörigen personenbezogenen Daten beizubehalten, scheint im Trend zu liegen und wird manchmal auch als Data Decapitation bezeichnet – was so viel heißt wie Daten zu köpfen bzw. zu enthaupten. Bitte verletzen Sie Ihre Daten nicht, sondern anonymisieren Sie sie nur auf angemessene Weise! Wie Sie bereits gelernt haben, trägt das Entfernen dieser Identifikatoren nichts zur Anonymisierung bei. Es macht Ihnen nur das Leben schwerer, sollten Sie sich dazu entscheiden, eine Anonymisierung vorzunehmen, da Sie dann einen neuen Weg finden müssen, wie Sie den individuellen Beitrag bestimmen können.
2Ein hervorragendes Beispiel aus der Geschichte der Sicherheitsrisiken ist die Studie, die Rowhammer (https://oreil.ly/PAXEG) aufgedeckt hat, eine Schwachstelle bei der Privilegienerweiterung in dynamischem RAM. Viele waren der Überzeugung, dass diese Schwachstelle so gut wie nie auftrat, aber mit Experimenten wurde gezeigt, dass sie ziemlich regelmäßig auftrat. Als sie entdeckt wurde, wurde nicht kommuniziert, ob sie auch tatsächlich ausgenutzt wurde. Dennoch wurde sie von vielen Betreibern von Rechenzentren als akute Schwachstelle eingestuft.
3Google hat sich für das Paillier-basierte Protokoll für Private Join and Compute entschieden und nicht für ein komplexeres und effizienteres Protokoll. Aus welchem Grund? Damit Softwareentwickler, die keine Erfahrung mit Kryptografie haben, die Hilfsbibliotheken ohne Bedenken und ohne zusätzliche Weiterbildung nutzen können.
4Der genaue Titel der Verordnung lautet »Vorschlag für eine Verordnung des Europäischen Parlaments und des Rates zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz und zur Änderung bestimmter Rechtsakte der Union«.
5Obwohl dies ein Schritt auf dem Weg zu Privacy by Design ist, besteht der sicherste Weg, den Schutz der Nutzer zu gewährleisten, darin, sichere und datenschutzfreundliche Standardeinstellungen anzubieten. Denn die meisten Nutzer überprüfen oder ändern diese Einstellungen nicht – und wenn, dann nur wenn sie direkt dazu aufgefordert werden.
1Je nach Unternehmen oder Anwendungsfall ist möglicherweise bereits von vornherein bekannt, mit welcher Risikobereitschaft ein Problem angegangen wird, sodass Sie das Risiko und mögliche Abhilfemaßnahmen entsprechend dieser Risikobereitschaft bewerten werden. Ansonsten sollten Sie in Anbetracht des datenwissenschaftlichen Nutzens, den ein bestimmter Anwendungsfall für das Unternehmen hat, selbst bestimmen oder gemeinsam mit dem Unternehmen erarbeiten, welche Risiken man im Unternehmen bereit ist einzugehen.
2Wenn Sie ausreichend Zeit haben, empfehle ich Ihnen, den Compassion Course (https://www.compassioncourse.org) zu absolvieren, der sich über ein Jahr erstreckt und bei dem Sie sich in einer Studiengruppe austauschen können.
3Diese Darstellung ist angelehnt an die Arbeit von Battista Biggio (https://battistabiggio.github.io), einem der führenden Forscher auf dem Gebiet der Sicherheit im Bereich des Machine Learning, der in diesem Zusammenhang einen großen Beitrag geleistet hat.
4Thin Slices sind kleine, brauchbare Teile, die wie MVP-Features oder Proofs of Concept funktionieren und Feedback und einen Austausch zwischen Anwendern und Entwicklern ermöglichen. Die Idee stammt aus der agilen Softwareentwicklung und von Lean-Methoden, bei denen es darum geht, schnell einen Mehrwert zu schaffen. Es ist besser, dem »Kunden« etwas zu zeigen, das das tut, was er braucht oder will, selbst wenn es nicht voll funktionsfähig ist, als Monate damit zu verbringen, das zu bauen, von dem Sie glauben, dass es benötigt wird, nur um dann herauszufinden, dass es nicht den Erwartungen entspricht.
5Ironischerweise sind die meisten Anbieter von Enklaven auch Hardware- und Cloud-Anbieter.
6Die ursprüngliche Implementierung wurde bereits vor einigen Jahren vorgenommen – und homomorphe Verschlüsselung wurde als Möglichkeit ausgeschlossen, da die Bibliotheken zu diesem Zeitpunkt noch nicht ausgereift genug waren, um sie zu verwenden.
7Ich werde regelmäßig Aktualisierungen an den Notebooks im GitHub-Repository vornehmen und relevante Neuigkeiten, Fragen und Gedanken zu diesem Thema in meinem Newsletter Probably Private (https://probablyprivate.com) und meinem Blog (https://blog.kjamistan.com/) veröffentlichen. Ich würde mich freuen, wenn Sie mir Ihre Fragen, Ideen und Beiträge zukommen lassen. Zögern Sie also nicht, mich jederzeit über die auf Probably Private genannten Kontaktinformationen anzusprechen.
1Während der Entstehung dieses Buchs hat sich das Twitterverse stark verändert. Ich bin noch nicht auf Mastodon zu finden, aber Sie können mich jederzeit per E-Mail oder auf dem Postweg unter Probably Private (https://probablyprivate.com) erreichen.
2Wenn Sie neue kryptografische Protokolle entwickeln oder erforschen, wie man von nicht quantensicheren zu quantensicheren Methoden übergehen kann, dann ist dies natürlich eine äußerst notwendige, zeitgemäße und wichtige Arbeit. Bitte bleiben Sie weiter am Ball!
3Zum Zeitpunkt des Verfassens dieses Buchs ist dies hauptsächlich theoretischer Natur und aufgrund der Speicherbeschränkungen verfügbarer Quantencomputer nicht praktikabel.
4Diese werden auch als Data Clean Rooms bzw. seltener als Reinräume bezeichnet.
5Es gibt mehrere wesentliche Bedenken (https://oreil.ly/6Xnqk), die gegen diesen Vorschlag vorgebracht werden, und zwar dahin gehend, ob sie tatsächlich dazu beitragen, den Datenschutz in einer sinnvollen Weise zu verbessern. Zum Zeitpunkt des Verfassens dieses Buchs ist noch unklar, ob diese Bedenken in angemessener Weise berücksichtigt werden.
6Das Unternehmen nahm kurz darauf im Rahmen einer weiteren Finanzierungsrunde liquide Mittel auf, die vermutlich der Finanzierung der Zahlung dienten.
7Wenn Sie etwas Neues oder Interessantes finden, veröffentlichen Sie es, und teilen Sie es mit anderen!
8Auch EU-Behörden haben die NSA-Methoden zum Ausspionieren des Internetverkehrs ausprobiert, einschließlich des BND, der Zugang zum DE-CIX, einem großen Netzwerkknoten in Frankfurt, verlangte. DE-CIX verklagte den BND und gewann den Prozess (https://oreil.ly/YEWyW), sodass der Zugang illegal ist.
9Ich werde persönlich einige meiner eigenen Datenexporte in meinem Blog Probably Private und im Newsletter meines Blogs (https://probablyprivate.com) vorstellen, falls Sie sich inspirieren lassen möchten!
10Vielleicht ist das auch eine pessimistische Sichtweise, die sich mit diesem Schicksal abgefunden hat. In diesem Fall hoffe ich, dass Sie sie aufmuntern und ihnen ein wenig Hoffnung geben können.
11Wenn Ihnen Rachepornos als Beispiel nicht zusagt, können Sie es auch mit anderen Beispielen versuchen, wie unrechtmäßige Verhaftungen (https://oreil.ly/eDAJ7), gezielte Fehlinformationen (https://oreil.ly/6r9AO) oder politische Proteste (https://oreil.ly/pkzNU).
12Um mehr darüber zu erfahren, empfehle ich Ihnen die Bücher Race after Technology von Ruha Benjamin (2019) und Dark Matters von Simone Browne (2015) sowie die Arbeit von Professor Chris Gilliard (https://oreil.ly/WP5jm) zu verfolgen.
13Ich habe zu diesen und verwandten Problemen im Jahr 2019 einen Vortrag auf dem Chaos Communication Camp (https://oreil.ly/w6LvN) gehalten.
14Nimisha Asthagiri und ich haben zu diesem Thema einen Vortrag beim Strangeloop 2022 gehalten (https://oreil.ly/M-MP_).
15Sofern jemand sehr empfindlich reagiert, wenn man über personalisierte Werbung oder andere Themen aus diesem Kapitel spricht, ist es eine gute Idee, sich aus dem Gespräch zurückzuziehen. Denn wenn jemand sehr gereizt reagiert oder sich verteidigt, ist es unwahrscheinlich, dass das Gespräch überhaupt zu irgendetwas Gutem führt.
16Wenn Ihr persönliches »Threat Model« eine reale Bedrohung durch staatliche Überwachung beinhaltet, ignorieren Sie diesen Rat, und gehen Sie davon aus, dass Sie Ihren Geräten und Ihrer Onlinekommunikation nicht vertrauen können.
17Cracked Labs hat einen sehr aufschlussreichen Bericht zur Überwachung von Unternehmen (https://oreil.ly/3mLjE) veröffentlicht, sofern Sie einen detaillierten Einblick in die Praktiken einiger der größten Datenanbieter erhalten möchten, die Daten für Unternehmen sammeln und miteinander verknüpfen.
1Diejenigen, die für ihre Arbeit bezahlt wurden, die darin bestand, Labels zu erstellen, Code zu schreiben und mit den Modellen zu interagieren, um größere Trainingsdatensätze aufzubauen, waren oft deutlich unterbezahlt.
2Es gibt bereits Künstlergruppen, die daran arbeiten, indem sie Websites wie Have I Been Trained?
(https://oreil.ly/BG1k4) entwickeln, auf denen Künstler herausfinden können, ob ihre Werke für die Erstellung von Modellen wie DALL-E trainiert wurden, und eine Anfrage senden können, wenn sie die Nutzung unterbinden möchten.