In diesem Buch haben Sie eine Reihe verschiedener Technologien und Konzepte im Bereich des Datenschutzes kennengelernt. Sie haben Open-Source-Bibliotheken und -Tools verwendet und einige von ihnen direkt implementiert.
Doch wie bei den meisten interessanten technischen Problemen gibt es auch beim Datenschutz keine Einheitslösung, die für alle passt. Daher werden Sie damit konfrontiert sein, dass Sie das, was Sie in diesem Buch gelernt haben, auf neue Anwendungsfälle und Probleme anwenden müssen, denen Sie bei Ihrer Arbeit begegnen. Das heißt, Sie werden üben müssen, diese Probleme zu »sehen« und die Technologien und Konzepte auf die entsprechenden Anwendungsfälle anzuwenden.
Genau das werden Sie in diesem Kapitel lernen. Ich helfe Ihnen, mehrere Fallbeispiele mit Differential-Privacy-Risikoprofilen durchzugehen, und zeige Ihnen, wie eine zukunftsfähige Lösung aussehen könnte. Anhand dieser Beispiele werden Sie lernen, wie Sie Datenschutzrisiken und Möglichkeiten zur Verbesserung aktueller Ansätze erkennen können. Nachdem Sie dieses Kapitel durchgelesen haben, werden Sie in der Lage sein, Anwendungsfälle mit einer praktischen Denkweise anzugehen, sodass Sie einschätzen können, wie Sie ein Datenschutzproblem angehen, ohne in unnötige Komplexität abzugleiten.
Der erste Schritt besteht immer darin, darüber nachzudenken, wie Sie das Datenschutzrisiko auf praktikable Weise handhaben können. Da es unwahrscheinlich ist, dass Sie alle Datenschutzrisiken für alle Anwendungsfälle abmildern können, insbesondere in Unternehmen, die über personenbezogene Daten verfügen oder viele Kunden bedienen, müssen Sie sich überlegen, wie Sie Risiken klar kommunizieren und sie auf transparente Weise managen.
Wenn Sie Ihr neues Wissen anwenden, werden Sie unweigerlich in weitere Gespräche über Datenschutz und Risiken einbezogen werden. In diesen Situationen werden Sie darlegen müssen, welche Risikobereitschaft1 Sie in dem jeweiligen Szenario für angemessen halten.
Wenn Sie zum ersten Mal Risikomanagement betreiben, kann dies eine nervenaufreibende Erfahrung darstellen. Der Druck, den »richtigen« Rat zu geben bzw. die »richtige« Entscheidung zu treffen, ist groß. Vor allem wenn Sie zu Perfektionismus neigen, kann das sehr aufreibend sein. Wenn Sie sich jedoch klarmachen, dass es hier nicht um Entscheidungen über Leben und Tod geht und dass der Prozess iterativ abläuft, hilft Ihnen das, mit diesem Druck umzugehen und zu vermeiden, dass Sie bei schwierigen Entscheidungen förmlich erstarren.
Um bessere Entscheidungen zu treffen und festzustellen, wann ein Problem wirklich geschäftskritisch ist, müssen Sie Ihre Datenkenntnisse, Ihre »Risikoempathie« und Ihr praktisches Wissen über den Datenschutz einsetzen. Dies sind die wesentlichen Fähigkeiten für den Schritt der Risikomodellierung, der in Kapitel 8 beschrieben wurde. Dank dieser Fähigkeiten sind Sie in der Lage, fundierte Ratschläge dazu zu geben, wie die nächsten Schritte aussehen sollten und wie das Risiko zu handhaben ist.
Das Datenschutzrisiko unterscheidet sich von Unternehmen zu Unternehmen, und wenn Sie die Branche wechseln, werden Sie wahrscheinlich feststellen, dass es dort einen anderen Grad an Risikobereitschaft gibt. Ein wichtiger Faktor bei der Bewertung ist, dass Sie die Risikobereitschaft (https://oreil.ly/mQH-i) des Unternehmens ermitteln. Wenn Sie beispielsweise in einer stark regulierten Branche wie dem Finanz- oder Gesundheitswesen arbeiten, werden Sie feststellen, dass die Risikobereitschaft in Bezug auf den Datenschutz deutlich geringer ist. Das liegt an den strengeren Vorschriften, den größeren Risiken und der Kultur, die durch diese Risiken im Unternehmen geprägt wird.
Wenn ein Unternehmen über längere Zeit oder sogar von Anfang an einem starken regulatorischen Druck ausgesetzt ist, spiegelt sich dies in der gesamten Unternehmenskultur wider. Das führt oft dazu, dass Risiken bewusster wahrgenommen und besser eingeschätzt werden, was äußerst förderlich ist! Allerdings äußert sich dies mitunter auch als generelle Angst oder Unsicherheit, wenn etwas Neues vorgeschlagen wird. Wie damit umgegangen werden kann, erfahren Sie im Abschnitt »Mit Ungewissheit umgehen und gleichzeitig für die Zukunft planen« auf Seite 319.
In einigen Unternehmen wird das Datenschutzrisiko überhaupt nicht als Risiko angesehen, oder es wird aufgrund zunehmender Kontrollen, Reaktionen von Verbrauchern und Änderungen der Strategie erst jetzt als solches wahrgenommen. Wenn Sie in einem solchen Unternehmen tätig sind, werden Sie sich in schwierigen Gesprächen wiederfinden, in denen die alten Ansätze mit der neuen Realität kollidieren. In solchen Situationen ist es oft so, dass die vorherige Risikobereitschaft zu groß war und die für das Risikomanagement verantwortlichen Personen nun strengere Maßstäbe anlegen. Es könnte auch bedeuten, dass Produkte angepasst und die Nutzung von Daten verändert wird, um neueren Vorschriften wie der DSGVO zu entsprechen. Solche Gespräche zu führen, erfordert ein besonderes Maß an Einfühlungsvermögen. Wenn Sie neue Ideen und Möglichkeiten aufzeigen, wie sich Risiken mithilfe von Technologien verringern lassen, kann dies ebenfalls dazu beitragen, neue Perspektiven zu eröffnen.
Sobald Sie wissen, mit welchen Szenarien die Beteiligten aus den Rechts-, Compliance-, Risiko- und Auditabteilungen konfrontiert sind, können Sie entscheiden, wie Sie das Risiko bewerten. Wenn Sie mit den verschiedenen Szenarien vertraut sind, denen sich diese Akteure gegenübersehen, wird automatisch klar, welche technischen Möglichkeiten infrage kommen. Dies ist Teil des Prozesses für das gemeinsame Threat Modeling, bei dem jeder mitteilt, wie er das jeweilige Risiko einschätzt, sodass Prioritäten gesetzt werden können. Wenn beispielsweise die Rechtsabteilung besonders darüber besorgt ist, dass personenbezogene Daten im Rahmen der DSGVO missbräuchlich verwendet werden könnten, wissen Sie, dass Richtlinien, Datenzugriff und Anonymisierung dazu beitragen können, dieses Risiko zu verringern oder ganz zu entschärfen.
Nachdem Sie die Meinung der rechtlichen Vertreter eingeholt haben, ist es wichtig, zu verstehen, was für die Personen, die für die Sicherheit im Unternehmen verantwortlich sind, am wichtigsten ist. Welche Prioritäten verfolgen sie vorrangig, und welche Bedenken bereiten ihnen die größten Sorgen? Welche Arten von Angriffen stellen für sie das größte Problem dar? Viele Sicherheitsverantwortliche werden nicht in der Lage sein, die Tragweite und das gesamte Ausmaß möglicher Angriffe auf die Privatsphäre oder von Datenschutzrisiken so zu verstehen, wie es nach der Lektüre von Kapitel 4 für Sie möglich ist. Aus diesem Grund ist es wichtig, ihnen erst einmal Gehör zu schenken und zu erfahren, inwieweit sie sich bereits mit dem Thema beschäftigt sind.
Allerdings sollten Sie vermeiden, sie mit einer Vielzahl neuer Angriffe zu überrumpeln, von denen sie noch nie etwas gehört haben. Schneiden Sie stattdessen Ihre Botschaft individuell auf sie zu. Finden Sie heraus, inwieweit Datenschutz mit ihren derzeitigen größten Problemen verbunden ist. Sie könnten sich zum Beispiel Sorgen über die Verwendung sensibler Daten in der öffentlich zugänglichen Cloud machen – oder sogar darüber, wie sensible Daten über die Cloud hinweg oder innerhalb von Multi-Cloud-Umgebungen übertragen werden können. Je nachdem, wie Ihre Analyse ausfällt, könnte der Einsatz einer Technologie wie Encrypted Computation zum Ausbau einer verschlüsselten Verarbeitung diese Bedenken ausräumen. Wenn diese Zusammenarbeit mit den wichtigsten zukünftigen Schwerpunkten fortgeführt wird, werden diese Gespräche dazu beitragen, das Verständnis und das Interesse für Datenschutzrisiken und -technologien an entscheidender Stelle im Unternehmen zu fördern.
Manche der von Ihnen vorgeschlagenen Abhilfemaßnahmen werden möglicherweise als zu experimentell oder zu drastisch angesehen. Solche Technologien sind außerhalb des Fachgebiets des Privacy Engineering noch recht unbekannt. Zwar werden diese Technologien bereits häufig in größeren Technologieunternehmen und in Sektoren wie dem Finanz- und Gesundheitswesen eingesetzt, aber für viele Menschen und Branchen sind sie Neuland. Initiieren Sie den Dialog, indem Sie Kompromisslösungen und Experimente vorstellen, mit denen später bessere Technologien implementiert werden können. In den in diesem Kapitel vorgestellten Fallbeispielen wird dieser Ansatz verfolgt, und es werden Wege aufgezeigt, wie Sie die Gespräche führen können.
Wenn die von Ihnen empfohlenen Abhilfemaßnahmen nicht als vorrangig betrachtet werden, müssen Sie sicherstellen, dass die Mitarbeiterinnen und Mitarbeiter sich über das daraus resultierende Datenschutzrisiko im Klaren sind. Dazu sollten Sie herausfinden, wie das Unternehmen Sicherheitsüberlegungen und -bedenken dokumentiert. Eine Dokumentation der Datenschutzrisiken mit ähnlicher Struktur und Sprache sorgt dafür, dass innerhalb eines großen Unternehmens eine einheitliche Linie verfolgt wird. Die wichtigsten Risikoverantwortlichen sollten, wie in Kapitel 8 erwähnt, ihr kollektiv getragenes Risiko verstehen, damit sie ihren Risikoansatz bewerten, priorisieren, überprüfen und iterativ verbessern können. Wenn die Risiken, die Sie feststellen, gut dokumentiert sind und verstanden werden – vor allem wenn suboptimale Abhilfemaßnahmen ergriffen werden –, dann rücken die Datenschutztechnologien bei der nächsten Evaluierung oder Konversation stärker in den Vordergrund.
Denken Sie daran, dass Datenschutz kein Ein-Aus-Schalter ist, sondern vielmehr ein Kontinuum im Sinne von vielen Abstufungen – nicht AN (= 100 % Schutz) und AUS (= 0 % Schutz). Wenn Ihre erste Maßnahme nicht umgesetzt wird, sollten Sie das Gespräch fortsetzen. Gibt es einen Kompromiss, auf den Sie sich innerhalb des Spektrums an möglichen Lösungen einigen können? Können Sie in ein paar Monaten erneut prüfen, ob es neue Möglichkeiten gibt, wie dieses Risiko berücksichtigt werden kann, nachdem das Produkt oder der Datenfluss erfolgreich eingeführt wurde? Wenn Sie anderen darlegen können, welche Bandbreite an möglichen Lösungen für ein bestimmtes Risiko zur Verfügung steht, wird es Ihnen gelingen, das Datenschutzrisiko im gesamten Unternehmen zu verringern.
Indem Sie die Hauptrisiken identifizieren, das in diesem Buch Gelernte anwenden und Ihren Fokus auf das Privacy Engineering legen, werden Sie imstande sein, derartige Bedenken zunehmend besser zu vermitteln. Selbst wenn Sie derzeit in einem Unternehmen arbeiten, in dem Datenschutz nicht sonderlich ernst genommen wird, heißt das nicht, dass Sie diese Einstellung übernehmen sollten. Lernen Sie, sich Gehör zu verschaffen, sprechen Sie an, wenn Ihnen etwas auffällt, und bringen Sie den Datenschutz als ganz normalen Bestandteil technischer Gespräche ein. Sie werden überrascht sein, wer sich alles in die Diskussionen einbringt und Ihre Ideen unterstützt.
Der Weg eines Unternehmens von der bloßen Akzeptanz von Datenschutzrisiken über deren Dokumentation bis hin zur Eindämmung durch Datenschutztechnologien kann sehr lang sein. Wenn es Ihnen gelingt, besser darzulegen, welche Möglichkeiten es in der Zukunft geben wird, beschleunigen Sie diese Diskussion. Denn schließlich wollen Sie die Diskussion von einem »nicht jetzt« zu einem »ja, aber wann« verlagern. Sehen wir uns nun an, wie Ihnen das gelingen kann.
Die derzeitigen Entwicklungen bei der Datenschutzgesetzgebung und die sich ändernden Erwartungen der Verbraucher hinsichtlich des Datenschutzes weisen auf eine Zukunft hin, in der die Privatsphäre von Individuen zunehmend besser geschützt wird und weniger Daten gesammelt werden. Es ist jedoch nicht genau vorhersehbar, wann dies der Fall sein wird und welche Vorschriften, Konsumgüter- und Tech-Unternehmen den Anfang machen werden.
Angesichts dieser Ungewissheit gestalten sich Gespräche und anstehende Entscheidungen oftmals schwierig. Wenn Sie in Ihrem Unternehmen eine Führungsposition innehaben, sollten Sie proaktiv an die Sache herangehen und das Wissen aus diesem Buch nutzen, um neue Denkansätze für den Umgang mit Datenschutzrisiken zu entwickeln und sich diese zu eigen zu machen, statt sie auszublenden. Auch wenn Sie keine Führungsposition innehaben, haben Sie dennoch Einfluss auf Ihr Unternehmen. Wer seiner Stimme Gewicht verleiht und einen konkreten Plan verfolgt, wird auch in Zeiten der Ungewissheit die Einstellung anderer beeinflussen können.
In Zeiten zunehmender Ungewissheit sind Menschen oft verunsichert, wenn nicht sogar verängstigt. Entscheidungen aus Furcht oder unter dem Einfluss von Verunsicherung zu treffen, führt selten zu optimalen Ergebnissen. Mit dem Wissen, das Sie in diesem Buch erworben haben, und dank kontinuierlicher Weiterbildung werden Sie in der Lage sein, Gespräche auf Fakten statt auf Ängste auszurichten.
Wenn Menschen sich in einem Zustand der Angst und Verunsicherung befinden oder sich Sorgen machen, fällt es ihnen schwer, auf Fakten einzugehen. Deshalb sollten Sie im Rahmen des Gesprächs erst auf ihre Gefühle eingehen. Was löst bei ihnen diese Gefühle aus? Was genau ist an der Tatsache, einen stärkeren Fokus auf Datenschutztechnologien zu legen, beängstigend? Indem Sie ihnen auf einfühlsame und mitfühlende Weise zuhören, können Sie diese Bedenken aufgreifen und gleichzeitig herausfinden, wie die Stimmung im Unternehmen ist. Hierbei kann es, wie bereits in Kapitel 8 erwähnt, sinnvoll sein, mehr über gewaltfreie Kommunikation zu lernen.2 An dieser Stelle kann sich das Gespräch zudem dahin entwickeln, dass Schuldgefühle hervorgerufen werden, getreu dem Motto »wir sollten es eigentlich besser hinbekommen«. Datenschutztechnologien können hier interessante Perspektiven eröffnen, da sie nicht nur Haftungsrisiken (und Risiken im Allgemeinen) reduzieren, sondern den Menschen auch ein gutes Gefühl bei der Arbeit und dem Umgang mit Daten geben.
Wenn Menschen das Gefühl haben, dass ihnen Gehör geschenkt wird und sie sich verstanden fühlen, werden sie auch aufgeschlossener gegenüber neuen Informationen sein. Auf Grundlage dessen, was Sie in den vorangegangenen Gesprächen in Erfahrung gebracht haben, können Sie die Entscheidungen zum Thema Datenschutz innerhalb eines Unternehmens mithilfe von aktuellem Wissen und aktuellen Informationen lenken und auf Ihre Gesprächspartner Einfluss nehmen. Es gibt viele Möglichkeiten, wie Sie das angehen können: Sie können Informationsveranstaltungen abhalten, einen Buchklub zum Thema Datenschutz ins Leben rufen, Denkanstöße verfassen und teilen, Workshops geben oder auch Datenschutztechnologien im Rahmen von Hackathons vorführen. Diese und viele andere Ansätze tragen dazu bei, ein größeres Bewusstsein innerhalb des Unternehmens zu schaffen. Darüber hinaus fördern sie auch eine Gesprächskultur zum Thema Datenschutz und sorgen dafür, dass sich ein Kreis von Befürwortern und Verfechtern herausbildet, die mit anpacken wollen.
Das Wort ergreifen und die Stimme erheben
Sie können eine solche Aufklärungs- und Überzeugungsarbeit unabhängig von Ihrer Position in Ihrem Unternehmen leisten, wenngleich Ihre Einflussmöglichkeiten natürlich unterschiedlich groß sein dürften.
Oftmals hängt dies davon ab, inwieweit in Ihrem Unternehmen Privilegien und Status eine Rolle spielen und ob die Unternehmenskultur stimmt. Das sind alles Faktoren, auf die Sie nur mit großer Anstrengung Einfluss nehmen können und auf die Unterstützung der Unternehmensleitung bauen müssen. Falls Sie bei Ihrer Arbeit mit Widerständen zu kämpfen haben und auf Ablehnung stoßen, sollten Sie sich bewusst machen, dass es in anderen Unternehmen anders abläuft.
Wenn Sie jedoch mehr Einfluss nehmen können und gewisse Privilegien im Unternehmen genießen, sollten Sie auch auf diejenigen eingehen, die weniger Einfluss haben und weniger privilegiert sind, und ihnen die Möglichkeit geben, sich einzusetzen und ihre Stimme zu erheben. Laden Sie sie zu Gesprächen ein (https://oreil.ly/4OqEg) und geben Sie ihnen die Gelegenheit, sich zu zeigen.
Im Bereich der Cybersicherheit und des Datenschutzes gerät man schnell in die Lage, nur noch reagieren zu können, und dann werden die entsprechenden Entscheidungen lediglich als Reaktion auf Ereignisse, Nachrichten, Gerichtsverfahren usw. getroffen. In den Unternehmen muss ein Umdenken stattfinden, und zwar in Richtung eines proaktiven Ansatzes, dessen Vorteile hinlänglich bekannt und erwiesen sind. Nach einer jährlich erscheinenden Cybersecurity-Studie der britischen Regierung (https://oreil.ly/vdCmC) kann ein proaktiver Ansatz Datenlecks und anderen unerwünschten Cyberereignissen wirksam vorbeugen.
Einen Wandel hin zu einem proaktiven Sicherheits- und Datenschutzkonzept zu vollziehen, bedeutet, dass regelmäßig vorausschauende und zukunftsorientierte Sitzungen, wie z.B. Threat Modeling und Risikobewertungen, durchgeführt werden und die Ergebnisse dieser Sitzungen im Rahmen der Produkt- und Unternehmensplanung einfließen. Auf diese Weise kann ein Unternehmen der Zeit voraus sein und so mögliche Probleme im Zusammenhang mit der Einhaltung von Vorschriften ebenso vermeiden wie Bußgelder und öffentliche Kritik am Unternehmen.
Darüber hinaus bedarf es eines regelmäßigen Turnus zur Modellierung, Simulation, Bewertung und Überprüfung von Bedrohungen (siehe Abbildung 9-13). Mithilfe dieses systematischen Ansatzes und der daraus gewonnenen Erkenntnisse können die Teams die tatsächlichen Auswirkungen von Bedrohungen besser einschätzen, als wenn sie diese nur in einem theoretischen bzw. »imaginären« Rahmen betrachten. Eine stärker daten- und erfahrungsgestützte Risikobewertung wird es ermöglichen, wirksame Abhilfemaßnahmen besser zu priorisieren und sich nicht auf relativ willkürliche Experteneinschätzungen zu verlassen.
Abbildung 9-1: Ein proaktiver Sicherheitsansatz zur Beurteilung von Bedrohungen
Noch eine letzte Bemerkung: Datenschutz geht auch mit geschäftlichen Vorteilen einher, einschließlich einer besseren Reputation. Unternehmen wie Apple haben die öffentliche Meinung grundlegend verändert, indem sie Datenschutz als ein wesentliches Unterscheidungsmerkmal im Rahmen ihrer Marketingstrategie nutzen. Die von Apple vorgenommenen Änderungen am iOS-Betriebssystem, durch die die Nutzung unerwünschter Daten in Anwendungen problemlos unterbunden werden kann, haben bereits zu seismischen Verschiebungen in der Art und Weise geführt, wie bestimmte Geschäftsmodelle aussehen, z.B. bei Werbeanzeigen, die auf Microtargeting basieren. Wenn Sie den Schutz der Privatsphäre ernst nehmen und Datenschutz in Ihren Produkten und Ihrem Unternehmen fest verankern, sind Sie in der Lage, diesen Wandel voranzutreiben, anstatt ihm zum Opfer zu fallen.
Wenn Sie die Gespräche, die Planung und die Entwicklung einer internen Unternehmenskultur vorantreiben, können Sie die Einbindung dieser neuen Technologien fördern. Ein weiterer wichtiger Aspekt ist, schnell Ergebnisse herbeizuführen und sogenannte Thin Slices4 zum Testen von Datenschutztechnologien einzusetzen und Ihre Kenntnisse und Erfahrungen in diesen Bereichen auszubauen. Im folgenden Abschnitt erfahren Sie anhand einiger realer Praxisbeispiele, wie Sie einschätzen können, welche Datenschutztechnologien sich je nach Anwendungsfall anbieten.
Zu lernen, wie und welche Datenschutztechnologien Sie einsetzen können, wird ein fortlaufender Prozess sein, in dem Sie das in diesem Buch Erlernte auf Ihre Arbeit mit Daten anwenden. In diesem Abschnitt stelle ich Ihnen einige reale Anwendungsfälle vor und zeige Ihnen, wie unterschiedliche Datenschutztechnologien zum Einsatz kommen können. Hierbei sollten Sie besonderen Fokus darauf legen, Muster und Denkweisen zu erfassen und Ihre eigenen Erfahrungen im Umgang mit Daten mit den Fallbeispielen zu vergleichen. Die Fragen und Ideen, die Ihnen beim Lesen in den Sinn kommen, können Ihnen interessante Ansatzpunkte dazu bieten, wie Sie Datenschutztechnologien in Ihrem Unternehmen, in Ihrem Tätigkeitsbereich oder auch in Ihrer beruflichen Zukunft einsetzen können.
Diese Anwendungsfälle basieren auf realen Fällen aus der Praxis. Zur Wahrung der Vertraulichkeit wurden bestimmte Details abgeändert oder weggelassen. Der Kern des Problems und des Entscheidungsprozesses wird allerdings unverändert dargestellt.
Gerade das Marketing eignet sich hervorragend dafür, den Einsatz von Datenschutztechnologien auszuweiten, da es oftmals der erste Bereich ist, in dem Unternehmen von Vorschriften betroffen sind. Wenn Sie in einem Marketingunternehmen beschäftigt sind oder eng mit einem Marketingteam zusammenarbeiten, haben Sie sicher schon gesehen, wie sich Einwilligungen, die Wahl von Opt-out-Möglichkeiten und die Beachtung von Vorschriften auf das gesamte Geschäftsmodell auswirken. Marketingabteilungen zu vermitteln, wie sie Marketing auf eine andere Art und Weise betreiben können, bei der der Datenschutz im Mittelpunkt steht, ist ein interessanter Teil der Arbeit im Bereich des Datenschutzes.
Bei diesem Anwendungsfall geht es darum, Daten gemeinsam zu nutzen, sie zu Marketingzwecken einzusetzen und diese Daten auf sichere und datenschutzgerechte Weise zu handhaben. Sehen wir uns den Anwendungsfall genauer an!
In diesem Anwendungsfall geht es darum, dass zwei Unternehmen ihre Marketingbemühungen bündeln wollten. Ein Unternehmen wollte herausfinden, welche seiner Kunden auch Kunden des anderen Unternehmens waren, und das Management beabsichtigte, einige interessante Produktangebote zu erstellen, die sie auf der Grundlage der Daten, die dem anderen Unternehmen zur Verfügung standen, bewerben konnten.
Eines dieser Unternehmen war in Europa ansässig und sah sich daher mit strengeren Vorschriften konfrontiert. Aufgrund der Melderechte der DSGVO durften sie nicht ohne Weiteres Kundendaten austauschen, und die Rechts- und Compliance-Abteilungen beider Unternehmen lehnten eine direkte Übermittlung von Kundendaten an das jeweils andere Unternehmen ab. Wie konnten sie also eine geeignete Lösung finden?
Vor allem Marketingabteilungen haben aufgrund neuer Vorschriften wie der DSGVO häufig den Zugang zu bestimmten Daten verloren. Falls Ihr Unternehmen eine Marketingabteilung hat, können Sie mit ihr über die damit verbundenen Probleme sprechen, um herauszufinden, wie Datenschutztechnologien dazu beitragen können, dass den Kunden mehr Schutz geboten wird und dem Unternehmen dennoch neue Werbemöglichkeiten offenstehen.
In einer perfekten Welt gäbe es eine vertrauenswürdige dritte Partei (engl. Trusted Third Party, TTP), hier Trent genannt (https://oreil.ly/Qr59K)(siehe Tipp auf der nächsten Seite), die sich die von beiden Unternehmen gesendeten Daten ansehen und die Schnittmenge auf sichere Weise finden könnte. Trent könnte auch das Kaufverhalten analysieren und die Analyse sowie die übereinstimmenden Nutzer an das Unternehmen senden, das Werbung schalten möchte. Das Unternehmen könnte diese Analyse dann nutzen, um den (optimalerweise) interessierten Nutzerinnen und Nutzern neue Angebote zu unterbreiten.
Bei der derzeitigen Lösung für dieses Problem wird eine vertrauenswürdige Laufzeitumgebung (Trusted Execution Environment, TEE, die auch als Enklave bezeichnet wird) (https://oreil.ly/Mz8YZ) sowie eine Software verwendet, die die Vergleiche und Analysen in der sicheren Enklave ausführt. In Kapitel 10 finden Sie einen ausführlicheren Überblick über Enklaven. Kurz gesagt, handelt es sich dabei um ein vertrauliches Computing-Tool, das die Daten und die Programmausführung vor der Person oder dem Unternehmen verbirgt, das die Hardware betreibt.
Im vorliegenden Fall haben die Entscheidungsträger geglaubt, Enklaven seien einem Trent sehr ähnlich. Doch in der Regel lösen Enklaven das Problem der Vertrauensverteilung, indem sie das Vertrauen vom Hardwareanbieter bzw. Cloud-Dienst auf die Ausführungsumgebung verlagern.5 Enklaven bieten Sicherheitsgarantien dahin gehend, dass nur Ihre spezifische Software auf bestimmten Prozessoren ausgeführt wird. Damit der Datenschutz gewährleistet werden kann, muss diese Software von beiden Parteien entwickelt, programmiert, richtig verstanden und überprüft werden. Enklaven kosten auch deutlich mehr als normale Rechenleistung und haben aufgrund ihrer besonderen Funktionsweise einige Eigenheiten im Hinblick auf die Optimierung von Programmen, sodass sie für Softwareentwickler nicht immer einfach zu handhaben und zu pflegen sind.
Dieser Entschluss wurde in gutem Glauben gefasst und spiegelt sicherlich die Situation in Unternehmen wider, in denen das Wissen über Datenschutztechnologien relativ gering ist. Das dürfte in den nächsten Jahren bei den meisten Unternehmen der Fall sein, und genau an dieser Stelle können Sie am ehesten helfen. Welche Lösung wäre besser für das Problem der Marketingteams geeignet?
Möglicherweise haben Sie die Problemstellung gelesen und sofort an das Beispiel aus Kapitel 7 gedacht, in dem Sie die Moose- und Private-ID-Bibliothek genutzt haben. Damit liegen Sie richtig! Sehen wir uns an, warum.
Der Anwendungsfall ist im Grunde genommen eine typische Problemstellung, bei der sich die Private Set Intersection anbietet. Beide Unternehmen haben gemeinsame Kunden, wollen die Schnittmenge ihrer Kundendaten bestimmen und eine Analyse durchführen. Dementsprechend ist das Problem im Bereich der Encrypted Computation anzusiedeln. Darüber hinaus bestehen relativ strenge Anforderungen an den Datenschutz und die Geheimhaltung, was bedeutet, dass Sie eine möglichst sichere Verschlüsselung und gegebenenfalls auch Differential Privacy oder andere Verfahren zur Maskierung oder Aggregierung einbeziehen möchten.
Wenn Sie die Notwendigkeit einer vertrauenswürdigen dritten Partei sehen, sollten Sie sofort an Encrypted Computation denken. Trent ist eine Figur aus der Welt der Kryptografie, weil sie als vertrauenswürdige dritte Partei für Eigenschaften steht, die die Kryptografie bietet. Wenn kryptografische Protokolle konzipiert werden, repräsentieren Figuren wie Trent Attribute und Methoden, die für die eigentliche kryptografische Berechnung benötigt werden. Dies ist Teil der universellen Komponierbarkeit (engl. Universal Composability) (https://oreil.ly/xNWO-) und ein wesentlicher Bestandteil kryptografischer Beweise.
Die Umstellung von der derzeitigen Lösung, die keine eindeutigen Garantien bietet, auf einen Ansatz ähnlich dem Private Join and Compute (siehe den Abschnitt »Private Join and Compute« auf Seite 259) von Google würde für die Zukunft eine Lösung bieten, bei der der Datenschutz an erster Stelle steht. Dies könnte entweder mit homomorphen Verschlüsselungsprotokollen oder sicheren Mehrparteien-Berechnungsprotokollen (Secure Multiparty Computation) – oder einer Kombination aus beidem – geschehen. Ein zusätzlicher Vorteil dieses Ansatzes ist, dass er Cloud- und hardwareunabhängig ist, d. h., er kann ohne spezielle Hardware ausgeführt und problemlos in neue Clouds bzw. Umgebungen migriert werden. Außerdem ist er viel besser nachprüfbar, da er auf bewährten kryptografischen Protokollen beruht und weil optimalerweise eine gut geprüfte und gepflegte Implementierung zum Einsatz kommt. Wenn dies der Fall ist, sollten beide Parteien in der Lage sein, den Berechnungsplan zu überprüfen und sicherzustellen, dass er ihren Ansprüchen entspricht. Je nach Software, die für die Implementierung verwendet wird, stehen gegebenenfalls auch leicht nachzuvollziehende Diagramme und Berechnungspläne zur Verfügung, sodass alle Beteiligten die Berechnung überprüfen können und verstehen, wie sie diese für die gewünschten Datenschutz- und Geheimhaltungsfunktionen modifizieren können.
Das Praktische an dieser Lösung ist, dass sie auch mit anderen Ideen getestet und kombiniert werden kann. Sie könnten zum Beispiel Encrypted Computation verwenden, um eine Private Set Intersection durchzuführen, und dann die Analyse der Daten in einer föderalen Weise vorzunehmen, bei der jeder Spieler nur seinen Teil der Daten analysiert. Die Parteien könnten dann mit Differential Privacy kleinere Aktualisierungen gemeinsam nutzen (Federal Analytics), anstatt die Analyse im verschlüsselten Raum zu Ende zu führen. Wenn die Analyse zusätzliche Datenschutzmaßnahmen erfordert, könnten Sie einen Differential-Privacy-Mechanismus direkt im Rahmen der Encrypted Computation vor dem Entschlüsselungsschritt einbinden. Durch die Kombination der Ansätze, die Sie in diesem Buch kennengelernt haben, können Sie genau herausfinden, wo der »Sweet Spot« für die Bereitstellung geeigneter Datenschutzmechanismen liegt, die am besten für den Anwendungsfall und das jeweilige Threat Model geeignet sind.
Beginnen Sie mit einem kleinen Proof of Concept, mit dem Sie das Problem schnell modellieren und anschließend iterieren können. Hier sind einige Schritte, die Ihnen den Einstieg erleichtern, sollte dies für Sie neu sein:
In diesem Beispiel haben Sie gesehen, wie Sie von einer neuen (aber ungeeigneten) Technologie zu einer Technologie wechseln, von der Ihr Team vielleicht noch nie gehört hat. Einige dieser Gespräche werden in Etappen stattfinden, und es wird eine Weile dauern, bis Sie genügend Befürworter gewinnen können, um zu Dingen wie einem Proof of Concept oder einer echten Implementierung zu gelangen.
Der Aufwand lohnt sich – sowohl im Hinblick auf Ihre Karriere als auch für das Unternehmen. Zu lernen, wie man andere bei diesem Wandel anleitet, erfordert Zeit. Raum für Experimente und Überzeugungsarbeit zu schaffen, kann dabei helfen. Wenn Sie Ihre Marketing- und Technologieteams mit Encrypted Computation vertraut machen, werden sie davon profitieren, wenn sie in die Zukunft blicken, und die Bindung an einen Anbieter und die unvorhersehbaren Cloud-Kosten vermeiden, die mit ungeeigneten Lösungen wie Enklaven einhergehen.
Gehen wir nun zum nächsten Anwendungsfall über, bei dem es ebenfalls um die gemeinsame Nutzung von Daten geht, die geschützt bleiben und vertraulich gehandhabt werden müssen.
Damit sie sich ein umfassendes Bild von der Gesundheit der Bürgerinnen und Bürger machen können, sind Behörden oftmals darauf angewiesen, mit privatwirtschaftlichen Unternehmen zusammenzuarbeiten, die über verschiedenste Gesundheitsdaten und Gesundheitsindikatoren verfügen. Zum Beispiel wäre es bei der Analyse einer Krankheit wie Krebs oder einer Pandemie sinnvoll, Gesundheitsdaten von privaten Versicherern, privaten Krankenhäusern und öffentlichen Behörden als Grundlage heranzuziehen. Dadurch könnten Forschungsprojekte unterstützt, die Budgetplanung optimiert oder auch die Kapazitäten von Krankenhäusern und Gesundheitseinrichtungen gezielter angepasst werden.
Diese Art von Datenpartnerschaften lassen sich auch außerhalb des Gesundheitswesens finden, z.B. wenn Partner aus dem privatwirtschaftlichen Bereich gemeinsam an der Lösung eines Problems arbeiten. In diesem Anwendungsfall erfahren Sie, wie Sie eine solche Zusammenarbeit unter Wahrung der Privatsphäre der in den Daten enthaltenen Personen sicher gestalten können.
Dieser Fall soll bei der Haushaltsplanung der Kosten des Gesundheitswesens in einem Land dienen, in dem Daten von Gesundheitsdienstleistern, privaten Versicherern und der Regierung miteinander kombiniert wurden, um sich ein besseres Gesamtbild zu verschaffen. Das Ziel war es, die Kosten des Gesundheitswesens auf übergeordneter Ebene nachvollziehbar zu machen – nicht auf Ebene der einzelnen Patienten. Die nach verschiedenen Merkmalen aufgeschlüsselten Gesamtkosten des Gesundheitswesens konnten anschließend dazu herangezogen werden, zukünftige staatliche Investitionen und Ausgaben im Gesundheitswesen besser zu planen.
Dabei war es wichtig, dass die Regierung die entsprechenden Kennzahlen erhält, ohne dass dabei die Vertraulichkeit von Daten betroffener Patienten verletzt wird. Die Gesundheitsdienstleister und Versicherungsgesellschaften mussten im Rahmen der Beteiligung und Datenweitergabe gewährleisten, dass keine privaten oder vertraulichen Informationen über Patienten, Kunden oder interne Abläufe preisgegeben werden.
Bei der derzeitigen Lösung kommt ein datenschutzfreundlicher Hashing-Algorithmus zum Einsatz, der wie ein Bloom-Filter funktioniert, bei dem die Identifikatoren gehasht werden. Die Identifikatoren und die zugehörigen Kosten- oder Krankheitsdaten werden dann an die Regierung weitergegeben. Dabei übermitteln sowohl die Anbieter als auch die Versicherer ihre Daten an die Server der Regierung. Bei dem Algorithmus handelt es sich um eine die Privatsphäre wahrende Methode aus der Forschung. Der wahrscheinlichkeitsbasierte Hashing-Mechanismus sorgt für ein gewisses Maß an Rauschen und trägt somit zu einem besseren Datenschutz bei.
Sie haben bereits gelernt, dass bei dieser Vorgehensweise zwar die Anforderungen an eine starke Pseudonymisierung, nicht aber an eine Anonymisierung erfüllt werden. Bei wahrscheinlichkeitsbasierten Hashing-Verfahren kann eine Menge zusätzlicher Informationen preisgegeben werden, insbesondere wenn die dahinterliegenden Daten nicht geschützt sind. Selbst wenn sie mit einer gewissen Wahrscheinlichkeit einen anderen Hash zurückgeben, repräsentieren sie letztlich eine einzelne Person.
Für diese Identifikationsnummer ist der Suchraum wahrscheinlich begrenzt. Da die Regierung alle von ihr ausgestellten Identifikationsnummern kennt, ist es möglich, dass ein motivierter Angreifer den Gesundheitszustand einer bestimmten Person ermitteln kann. Das ist natürlich alles andere als ideal, wenn das eigentliche Ziel darin besteht, die derzeit beste Datenschutztechnologie zu verwenden.6
Doch dieser wahrscheinlichkeitsbasierte Filter birgt nicht nur Datenschutzrisiken, sondern trägt auch dazu bei, dass dem Datensatz unnötig viel Rauschen hinzugefügt wird. Im Gegensatz zum stochastischen Rauschen, das bei Differential Privacy hinzugefügt wird – das speziell auf das jeweilige Problem zugeschnitten ist und Datenschutzgarantien gibt –, bietet das mit diesem Ansatz einhergehende Rauschen keinen Schutz.
Wie könnte das bestehende System mithilfe moderner Datenschutztechnologien verbessert werden?
Bei der Entwicklung einer zukunftsfähigen Lösung, bei der die Geheimhaltung garantiert und die Privatsphäre geschützt bleibt, bieten sich zwei Ansätze an. Bei dem einen würden Sie auf Secure Multiparty Computation (MPC) zurückgreifen, bei dem anderen ein vollkommen föderales System aufbauen. Zudem könnten die Ansätze auch kombiniert werden. Betrachten wir beide Ansätze zunächst einmal im Einzelnen.
Wenn mehrere Parteien Daten gemeinsam nutzen wollen, stellt MPC immer eine denkbare Lösung dar. Im vorliegenden Fall ist sie vor allem deshalb geeignet, weil die Parteien eine gemeinsame Berechnung der Gesamtkosten vornehmen möchten. Mit einer Lösung wie dem Replicated oder dem Additive Secret Sharing, die Sie in Kapitel 7 kennengelernt haben, könnten die Parteien die Zusammenführung der Daten so gestalten, dass die Regierung die endgültigen Teilgeheimnisse (bzw. Anteile) erhält und anschließend das Ergebnis ermittelt. Sie könnten die Analyse auch automatisch so formulieren, dass Sie direkt nach dem gewünschten Ergebnis fragen (durchschnittliche Kosten pro Patient, Gesamtkosten bestimmter Behandlungen, Anzahl an Behandlungen pro Monat usw.). Darüber hinaus könnte jede Partei ihren eigenen Differential-Privacy-Mechanismus hinzufügen und die Beiträge pro Person, die Sensitivität und das Epsilon entsprechend anpassen, sofern dies gewünscht wird. Dann könnte die Regierung alle Antworten zusammen entschlüsseln und sicherstellen, dass sie die Einzigen sind, die das Ergebnis einsehen können. Auf diese Weise bleiben Vertraulichkeit und Datenschutz weitestgehend gewahrt. Das bedeutet auch, dass sich die beteiligten Parteien im Voraus darauf verständigen müssen, wie die Daten verarbeitet werden sollen und wie die Analyse durchgeführt wird, sodass bereits geklärt ist, welche Ergebnisse Sie erhalten und welche Privacy-Garantien Sie bieten wollen.
Die Analyse könnte ebenfalls in Form von Federated Analytics erfolgen, entweder in Verbindung mit oder ohne MPC (siehe Kapitel 6). In diesem Fall würde die Berechnung mittels eines föderal gestalteten Analysesystems durchgeführt, sodass jeder Teilnehmer die Analyse lokal durchführt, also ohne dass die Daten weitergegeben werden. Das aus der Aggregierung resultierende Ergebnis könnte dann entweder direkt an die Regierung gesendet oder die Aggregierung auf einem von der Regierung betriebenen Server vorgenommen werden. Wenn besondere Anforderungen an die Geheimhaltung der Daten gestellt werden, könnte dies eine Secure Aggregation sein, bei der MPC oder HE zum Einsatz kommt. Der Aggregationsschritt könnte auch durch Differential Privacy ergänzt werden, um ein höheres Maß an Datenschutz zu gewährleisten.
Alle eben genannten Ansätze bieten ein höheres Maß an Datenschutz und Geheimhaltung, als dies derzeit der Fall ist. Im Idealfall sollten Sie jetzt erkennen, dass es möglich ist, Datenschutztechnologien sinnvoll zu kombinieren, um die jeweiligen Probleme zu lösen. Zusammen mit den Software- und Infrastrukturteams sollten Sie hierbei gemeinsam abwägen, welche Lösung sich am ehesten eignet. Ihre Aufgabe besteht vor allem darin, ein größeres Spektrum möglicher Lösungen aufzuzeigen und gleichzeitig die Teams bei der Entwicklung der Lösung mit fundierten datenschutzrechtlichen und datenwissenschaftlichen Empfehlungen zu unterstützen.
Ein weiteres häufig vorkommendes Problem betrifft die Einhaltung von Datenschutzbestimmungen. Analysieren wir nun einen Anwendungsfall, bei dem es darum geht, die Bestimmungen der DSGVO einzuhalten. Hierbei werden wir uns erneut der Frage widmen, wie die derzeitige Lösung verbessert werden könnte.
Die DSGVO einzuhalten, stellt, wie Sie in Kapitel 8 erfahren haben, kein leichtes Unterfangen dar. Unternehmen in Europa und auf der ganzen Welt sind noch heute dabei, ihre Compliance-Mechanismen anzupassen, da Daten, die im Rahmen älterer Einwilligungen erhoben wurden, nun gelöscht werden müssen und sich die Auslegung von Einwilligungen im Rahmen der Rechtsprechung ändert.
Gemäß DSGVO sind bestimmte Formen der Erhebung und Verarbeitung personenbezogener Daten nur dann zulässig, wenn die Einwilligung freiwillig und unmissverständlich gegeben wurde. Sobald Daten erhoben werden, muss der Datenverantwortliche eine Aufbewahrungsfrist für die Verwendung dieser Daten festlegen. Falls die Einwilligung widerrufen wird, müssen die Daten innerhalb von 30 Tagen gelöscht werden. Andernfalls müssen die Daten nach Ablauf der Aufbewahrungsfrist gelöscht werden.
Sie haben bereits in Kapitel 8 erfahren, dass Sie Daten, die im Rahmen der DSGVO erhoben wurden, dem Geltungsbereich der Verordnung entziehen können, wenn diese anonymisiert werden. Können Sie nachweisen, dass Daten ordnungsgemäß anonymisiert wurden, unterliegen sie nicht mehr den Anforderungen der DSGVO und können daher länger aufbewahrt werden, als dies durch die Aufbewahrungsfrist vorgegeben ist.
In diesem Anwendungsfall hat ein Einzelhandelsunternehmen im Rahmen seines regulären Geschäftsbetriebs Umsatzdaten erfasst. Auf diesen Daten wurden mehrere Machine-Learning-Modelle für eine Reihe wichtiger Marketing- und Geschäftszwecke trainiert. Seitdem die DSGVO in Kraft getreten ist, muss das Unternehmen die Verarbeitung seiner Daten dokumentieren und zusätzliche Schutzmaßnahmen ergreifen, wie z.B. neue Richtlinien hinsichtlich der Speicherung und Nutzung von Daten einführen.
Einen Teil der Daten kann es unabhängig von der Einwilligung oder der Aufbewahrungsfrist vorhalten, da sie einem »berechtigten Interesse« unterliegen. Allerdings fallen gewisse Daten, die es zusätzlich erhebt, unter die genannten Einwilligungs- und Aufbewahrungsbestimmungen. Diese Daten müssen von dem Unternehmen gelöscht oder – sofern es sie ohne weitere Einschränkungen im Rahmen des Trainings oder seiner normalen Verarbeitungsprozesse verwenden möchte – anonymisiert werden.
Das Unternehmen möchte diese zusätzlichen personenbezogenen Daten weiterhin für seine Machine-Learning-Modelle nutzen, da sich gezeigt hat, dass sich mit ihnen die Leistung der Modelle verbessern lässt. Wie kann es zugleich den Anforderungen der DSGVO gerecht werden und dennoch leistungsfähige Modelle entwickeln?
Beim derzeitigen Ansatz hat es k-Anonymität als Vorverarbeitungsschritt für den Feature Store implementiert. Bei der k-Anonymity wird zunächst ein Wert für k festgelegt, und die in den Daten enthaltenen Personen werden auf Basis persönlicher Attribute gruppiert, wobei die Gruppen jeweils mindestens k Personen umfassen (siehe Kapitel 2). Wenn eine Person bzw. eine Zeile keiner Gruppe zugeordnet werden kann, werden die entsprechenden Informationen verworfen.
Im Hinblick auf eine Machine-Learning-Pipeline bedeutet dies, dass sie die zum jeweiligen Zeitpunkt zulässigen Daten testet, die Gruppen erstellt und Daten anschließend zu Features verarbeitet, die dann im Feature Store landen. Diese Features (bzw. Merkmale) sind nun »anonymisiert« und können zum Trainieren von Modellen verwendet werden.
Allerdings bietet k-Anonymität, wie Sie sich vielleicht aus Kapitel 2 erinnern, keine strengen Datenschutzgarantien. Da in diesem Fall k-Anonymity auch nicht mit l-Diversity und t-Closeness kombiniert wird, sollte der Ansatz noch einmal hinterfragt werden. k-Anonymity führt unnötigerweise dazu, dass Informationen von Kunden verloren gehen, wenn diese Gruppen zugeordnet wurden, deren Größe kleiner als k ist. Wie könnten die Daten besser anonymisiert werden, sodass die Bestimmungen der DSGVO eingehalten werden?
Sie denken bereits an Differential Privacy, nicht wahr? Mit diesem Mechanismus kann, wie Sie bereits in Kapitel 5 erfahren haben, auch im Rahmen von Machine-Learning-Pipelines die Anonymität gewahrt werden. Diese Lösung wird dem Datenschutz auf jeden Fall besser gerecht und ist mit der DSGVO konform – und sie ist so zukunftssicher wie derzeit sonst keine andere.
Allerdings müssen Sie sich überlegen, wie Sie Differential Privacy in Ihr Training einbeziehen. Wenn Sie Differential-Privacy-Garantien für Ihr Machine Learning herbeiführen möchten, müssen Sie auf Machine-Learning-Bibliotheken zurückgreifen, mit denen Differential Privacy implementiert werden kann. Außerdem müssen Sie diese Modelle mit Modellen vergleichen, die mit weniger Daten trainiert wurden, für die aber keine Datenschutzgarantien erforderlich sind (d. h. nur mit Daten, deren Aufbewahrungsfrist noch nicht überschritten ist bzw. die gelöscht werden müssten).
Dieser Ansatz hätte jedoch zur Folge, dass Sie Ihre MLOps-Prozesse und Pipelines anpassen müssten, was eine große Investition bedeuten würde. Außerdem dürften Sie kein Interesse daran haben, Features, auf denen Differential Privacy angewandt wird, für den Feature Store zu erstellen, da dies nur einer lokalen Differential Privacy und keiner globalen bzw. zentralen gleichkäme – und den Daten somit mehr Rauschen hinzugefügt werden würde, als Ihnen lieb wäre (siehe Kapitel 2, 3 und 5). Falls Sie derzeit im Rahmen Ihrer MLOps-Prozesse vor allem auf Feature Stores zurückgreifen, wären Sie dadurch gezwungen, die Art und Weise, wie Sie Modelle trainieren, testen und miteinander vergleichen, anzupassen.
Sofern Sie der Meinung sind, dass dieser Ansatz der beste sei, ist es sicherlich möglich, ihn in Ihrem Unternehmen umzusetzen – dies allerdings nur mit einem hohen Zeit- und Entwicklungsaufwand. Bei einigen Unternehmen dürfte dieser Aufwand mit höheren Kosten verbunden sein als jenen, die mit den Risiken der Nichteinhaltung der DSGVO verbunden sind. Es könnte daher noch einige Zeit dauern, bis sich dieser Ansatz zur Einhaltung der DSGVO durchsetzt.
Untersuchen wir nun noch einen Anwendungsfall, der Ihnen vielleicht bekannt vorkommt und sogar ein Grund dafür ist, warum Sie dieses Buch in die Hand genommen haben – nämlich das lange Warten, bis Sie Zugriff auf Daten erhalten, oder wenn Ihnen der Zugriff auf bestimmte Daten ganz und gar verwehrt wird.
Im Laufe meiner beruflichen Tätigkeit habe ich schon unzählige Anwendungsfälle gesehen, in denen keine Daten verwendet werden durften oder bei denen Data Scientists monatelang darauf warten mussten, Zugang zu Daten zu erhalten. Betrachten wir ein Beispiel, das zeigt, wie Datenschutztechnologien bei diesem Problem Abhilfe schaffen können.
In diesem Beispiel entwickelt ein Unternehmen Tools für andere Unternehmen, mit denen die internen Daten dieser Unternehmen gemanagt werden. Aus Gründen des Datenschutzes und der Sicherheit erhält jedes Unternehmen seinen eigenen sicheren Datenspeicher. Die von der Anwendung erzeugten Daten gehören den jeweiligen Kunden, und der Anwendungsentwickler hat nur Zugriff auf diese Daten, um den Dienst am Laufen zu halten, nicht jedoch für andere Zwecke.
Für solche Teams besteht die Lösung üblicherweise darin, so zu verfahren wie bisher – d.h. ohne die Daten jemals für weitere Erkenntnisse, Anwendungsfälle oder etwaige Wachstumschancen zu nutzen. Auch wenn diese Lösung in der Tat sehr datenschutzfreundlich ist, bedeutet sie oftmals, dass das Unternehmen von anderen Unternehmen, die weniger datenschutzfreundliche Geschäftsmodelle verfolgen, abgehängt wird: Es ist dadurch nicht in der Lage, auf Daten zurückzugreifen, mit denen sich feststellen lassen würde, welche Produktfunktionen gut ankommen, welche verbessert werden könnten und wie neue Funktionen oder Angebote priorisiert werden könnten. Darüber hinaus können einige Funktionalitäten, wie z.B. Produkte, die mithilfe von Machine-Learning-Modellen auf Basis dieser Daten trainiert werden, ohne die entsprechenden Daten nicht entwickelt werden.
Damit das Unternehmen von Data Science profitieren und neue Produktangebote unter Verwendung von Data Science entwickeln kann, muss sich die Positionierung des Unternehmens und die Sichtweise der beteiligten Akteure deutlich verändern. Wichtig dabei ist, dass man – wie Sie als Data Scientist mit einem Fokus auf Datenschutztechnologien – eng mit den Compliance-, Rechts- und Datenschutzteams zusammenarbeitet, um abzuklären, welche Produkte mit den zugrunde liegenden Kundenverträgen und ihren Anforderungen in Einklang stehen würden. Falls vor dem Einsetzen und Testen von Datenschutztechnologien vertragliche Änderungen erforderlich sind, sollten diese direkt auf die Kunden zugehen und die nötigen Anpassungen klären.
Es gibt jedoch mehrere – Ihnen inzwischen bekannte – Möglichkeiten, die dazu beitragen können, den Kunden ihre Bedenken bezüglich des Zugriffs und der Nutzung ihrer Daten zu nehmen, vor allem wenn deren Bedenken daher rühren, dass ihnen unklar ist, welchen Nutzen sie daraus ziehen, und sich ihr Blick folglich nur auf die Kehrseite der Medaille richtet: auf einen (vermeintlich) geringeren Schutz ihrer Daten. Ist es ihnen beispielsweise wert, die Nutzung ihrer Daten anzubieten, wenn sie im Gegenzug von einem verbesserten Suchalgorithmus oder einem nützlichen Machine-Learning-Modell profitieren können? Wenn Sie ihnen die Vorteile und den von Ihnen gebotenen Schutz ihrer Daten aufzeigen können, kann dies ein Umdenken bewirken und neue Möglichkeiten für eine datenschutzfreundliche Nutzung ihrer Daten eröffnen.
In Konstellationen wie dieser kommen am häufigsten föderale bzw. verteilte Lösungen zum Einsatz (siehe Kapitel 6), bei denen die Daten hauptsächlich in einem sicheren Bereich verbleiben und nur kleinere Modellaktualisierungen oder Analyseergebnisse mit dem Anwendungsprovider geteilt werden. Der Anwendungsprovider könnte bei mehreren ähnlichen Kunden zum Beispiel Federated Learning einsetzen, um zu ermitteln, inwieweit ein Modell zur Optimierung von Suchfunktionen beitragen kann. Falls erforderlich, kann dieses Setting mit Differential Privacy und Secure bzw. Encrypted Computation kombiniert werden, sodass die Daten zusätzlich geschützt und gesichert wären.
Es wäre auch denkbar, dass Secure Multiparty Computation (siehe Kapitel 7) zum Einsatz kommen könnte – nämlich dann, wenn mehrere der Kunden bereit wären, ein bestimmtes Problem gemeinsam zu lösen, und von dieser Zusammenarbeit profitieren würden. Das könnte vor allem bei Supply-Chain- oder Logistikdaten der Fall sein, da alle beteiligten Kunden davon profitieren würden, wenn sie ihre Daten mit denen anderer Kunden kombinieren, und sie dadurch einen besseren Überblick über das System hätten. Wenn diese Kunden bereit sind, gemeinsam Berechnungen durchzuführen, aber nicht bereit sind, dies mit Klartextdaten zu tun, könnte Secure Computation ein möglicher Dienst sein, den der Anwendungsprovider mit Unterstützung dieser Partnerschaften entwickeln und anbieten könnte.
Von neuen Datenschutztechnologien zu profitieren und Standardworkflows zu konzipieren, bei denen Datenschutztechnologien als normaler Bestandteil von Data Science und Machine Learning zum Einsatz kommen, erfordert allerdings ein Umdenken. Denn wie Sie in Kapitel 3 gelernt haben, wird es schwierig sein, Systeme, Plattformen und Architekturen nachzurüsten, wenn diese Möglichkeiten nicht bereits im Rahmen der Konzeption bedacht wurden. Die effektivsten datenschutzfreundlichen Systeme sind solche, bei denen der Datenschutz bereits im Rahmen der anfänglichen Konzeption und Planung berücksichtigt wird.
Gehen wir nun einen Schritt von konkreten Anwendungsfällen zurück und überlegen wir uns, ob es einen allgemeineren Ansatz gibt, mit dem Sie Datenschutz bereits von vornherein in Ihren Systemen berücksichtigen können. Hierzu ist es erforderlich, bei Ihren in Machine-Learning- und Data-Science-Workflows zum Einsatz kommenden Methoden sicherzustellen, dass Datenschutz in jedem Schritt eine Rolle spielt. Ziel ist es letztlich, die Entscheidung für die Berücksichtigung des Datenschutzes bei der Entwicklung von Machine-Learning- und Data-Science-Produkten zu erleichtern.
In den ersten Phasen eines Data-Science- oder Machine-Learning-Projekts geht es oft darum, herauszufinden, welches Problem gelöst werden soll. In dieser Phase betreiben Sie eine Art »iterative Erkundung«, um zu ermitteln, welche anwendungsfall- oder kontextspezifischen Informationen Sie benötigen, um mehr über mögliche Ansätze oder Methoden zu erfahren und zu ermitteln, welche Daten bereits verfügbar sind und welche weiteren Daten Sie noch benötigen könnten.
Diese Phase ist der ideale Zeitpunkt, um Entscheidungen hinsichtlich des Datenschutzes zu treffen, sofern Sie mit personenbezogenen oder sensiblen aus Geschäftsprozessen gewonnenen Daten arbeiten. Beziehen Sie den Datenschutz in die Problemstellung und bei der Erkundung verfügbarer Daten mit ein und stellen Sie gleichzeitig Überlegungen dazu an, inwieweit der Datenschutz Berücksichtigung finden soll, wenn dies mit einem Verlust an Informationen einhergeht (siehe Kapitel 2). Die Beurteilung, welche Datenschutzmaßnahmen in dieser Phase hilfreich sein können, hat Einfluss darauf, wie das System später aufgebaut ist und funktioniert – wodurch etwaige technische Abwägungen deutlich zutage treten. Dies sollte idealerweise geschehen, bevor Code programmiert und Entscheidungen hinsichtlich der Architektur des Systems getroffen werden. Bereits bestehende Systeme und Architekturen bedeuten zwangsläufig immer, dass die Möglichkeiten für den jeweils vorliegenden Anwendungsfall eingeschränkt sind.
Zudem sollten Sie bedenken, dass, sofern Datenschutz- und Rechtsabteilungen erst ihre Zustimmung erteilen müssen, die Verwendung weiterer Daten und das Testen von Ideen nur möglich ist, wenn Sie bereits darlegen können, wie Sie diese ausreichend zu schützen gedenken (siehe Kapitel 8). Wenn Sie sich frühzeitig mit den rechtlichen Aspekten auseinandersetzen, können Sie sicher sein, dass Ihr Produkt bzw. Ihre Dienstleistung von den beteiligten Entscheidungsträgern genehmigt und auch richtig eingeschätzt werden kann. Schließlich wollen Sie nicht erst mitten in der Entwicklung eines neuen Machine-Learning-Produkts erfahren, dass es nicht DSGVO-konform oder zukunftssicher ist.
Wenn Sie beschließen, deshalb einfach weniger sensible Daten zu verwenden, ist das durchaus als gute Entscheidung zu werten. Denn durch eine Datenminimierung verringert sich das Risiko im Hinblick auf sämtliche Experimente und Workflows. Für einen besseren Datenschutz zu sorgen, ist immer das Beste, auch wenn das vielleicht bedeuten würde, dass die in diesem Buch vorgestellten Datenschutztechnologien in geringerem Umfang zum Zuge kämen.
Wird der Datenschutz regelmäßig im Rahmen dieser Erkundungsphase einbezogen und werden die Teams mit damit zusammenhängenden Fragen konfrontiert, sind sie eher geneigt, den Aufwand auf sich zu nehmen und Datenschutz direkt im Rahmen ihrer normalen Data-Science-Anwendungen zu berücksichtigen. Auf diese Weise wird ein iterativer Prozess angestoßen, bei dem es darum geht, verschiedene Technologien zu erkunden, herauszufinden, was am besten passt, zu bewerten, welche Bibliotheken sich rasch nutzen und testen lassen, und diese dann zu integrieren. Dadurch lernen die Teams diese Technologien besser kennen und bekommen einen genaueren Eindruck davon, wie sie auf datenwissenschaftliche Entscheidungen Einfluss nehmen können.
Sobald Datenschutz ein zentraler Bestandteil des kontinuierlichen Entdeckungsprozesses ist, werden sich mehr Personen und Teams im gesamten Unternehmen darüber austauschen, ihr Wissen teilen und ein stärkeres Bewusstsein dafür entwickeln. Damit dieses Wissen letztlich an alle weitergegeben wird, sollte es direkt im Rahmen des Produkt- und Lösungsfindungsprozesses dokumentiert werden.
Ähnlich wie die Software- und Benutzeranforderungen verfasst werden, kann und sollte auch das Formulieren von Datenschutzanforderungen ein normaler Teil von Data-Science- und Machine-Learning-Workflows sein. Wenn im Rahmen eines Data-Science-Projekts keine personenbezogenen oder anderen sensiblen Daten verarbeitet werden, kann auf diesen Prozess und auf eine Dokumentation verzichtet werden.
Allerdings tragen Gespräche im Rahmen von Projekten immer zum Wissensaustausch im Team bei und schärfen das Bewusstsein für den Datenschutz und die damit verbundenen Risiken. So wie in der Softwareentwicklung neue Standards und Praktiken für das Machine Learning eingeführt wurden – z.B. mehr Tests durchzuführen und eine Continuous Integration vorzunehmen –, wird die Entscheidung, Datenschutz als oberstes Anliegen in Datenprojekten zu verankern, die Kultur im Umgang mit personenbezogenen Daten nachhaltig verändern. Regelmäßige Risikobewertungen hinsichtlich des Datenschutzes und die Einbeziehung dieses Themas in die normalen Arbeitsabläufe können den Datenschutz von einem »Nice-to-have« zu einem »Must-have« für Teams und Datenprodukte machen.
Datenschutzrisiken von Machine-Learning-Modellen zu dokumentieren und sie abzumildern, ist, wie in Kapitel 5 erläutert, ein empfehlenswerter Ausgangspunkt für Machine-Learning-Teams oder Unternehmen, bei denen Machine Learning einen wichtigen Mehrwert ausmacht. Allein die Einbeziehung von Governance-Standards in die Arbeitsabläufe bzw. Workflows, wie Sie sie in den Kapiteln 1 und 3 gelernt haben, kann ausreichen, um ein Team oder ein Unternehmen für den Datenschutz zu sensibilisieren und dessen Einstellung diesbezüglich zu verbessern. Eine Dokumentation, die auch Einwilligungen umfasst, sowie auditierbare und selbstdokumentierende Workflows bieten Privacy by Design und machen es einfacher, Datenschutz umzusetzen und zu gewährleisten.
Sobald die Anforderungen an den Datenschutz schriftlich fixiert sind, werden die Lösungen, bei denen der Datenschutz im Vordergrund steht, durch die daraus resultierende Struktur besser ersichtlich. Dies setzt voraus, dass das gesamte Team grundlegende Kenntnisse über die möglichen Technologien hat und die Bewertung somit leichter fällt. Sie können eine Reihe von Schulungen durchführen, in denen Sie die wissenschaftlichen Grundlagen des Datenschutzes und die möglichen Technologien behandeln, ein Wissenszentrum einrichten, über das diese Informationen auch zu einem späteren Zeitpunkt ausgetauscht werden können, und interne Arbeits- und Lerngruppen einrichten, die dazu beitragen, das sich das Wissen im Unternehmen verbreitet. Wenn Sie mehr Zeit in die Aufklärung und Sensibilisierung dieses Themas investieren, wird dies zwangsläufig dazu führen, dass die Technologien auch stärker genutzt werden.
Ist das Know-how dann breiter gestreut, werden diese Themen Teil der normalen Projekt- oder Produktevaluierungsgespräche. Nun fühlt sich die Dokumentation des Datenschutzes so normal an wie, die Ergebnisse von Experimenten zu dokumentieren oder Protokolle zur Konzeption der Architektur zu verfassen. Diese Entdeckungs- und Dokumentationsartefakte sind nicht nur für den jeweiligen Anwendungsfall sehr wertvoll, sondern auch für jeden, der sich bei der Entwicklung eines neuen Anwendungsfalls davon inspirieren lassen möchte.
Sie können sich von der Data-Governance-Dokumentation in Federated-Governance-Systemen, die ich als Governance 2.0 bezeichnet habe, inspirieren lassen und Ideen wie Datenschutz-Folgenabschätzungen und Privacy Cards für Data-Science-Projekte kombinieren, um herauszufinden, welches Dokumentationsniveau sich für Ihr Unternehmen und Ihr Team am besten eignet. Zwar gibt es bei der Data-Science-Arbeit kein Patentrezept in Bezug auf die Dokumentation, aber die Ansätze, die Sie in den Kapiteln 1, 3, 5 und 8 kennengelernt haben, sollten Ihnen genug Anregungen dazu gegeben haben, was Sie noch ausprobieren und anpassen können.
In Ihrer Dokumentation werden Sie Datenschutztechnologien als Teil der regulären Bewertung von Ansätzen und Experimenten für Ihre Datenworkflows berücksichtigen. Doch wie soll das funktionieren, wenn jeder Workflow in gewisser Hinsicht einzigartig ist?
Bei der Bewertung der Datenschutzrisiken in Ihren Data-Science- und Machine-Learning-Systemen müssen Sie auch andere integrierte Systeme oder Anbieter bewerten, die nicht in Ihren Einflussbereich fallen. Wenn Sie Datenworkflows mit LLMs oder anderen generativen Systemen deployen, müssen Sie diese Dienste auf mögliche datenschutzrechtliche und andere rechtliche Risiken prüfen.
Datenschutzrisiken zu ermitteln, zu bewerten und zu verhüten, sollte für jedes Unternehmen ein multidisziplinäres Unterfangen sein. Arbeiten Sie mit der Rechtsabteilung zusammen, um mögliche Risiken besser abschätzen zu können, und mit der technischen Leitung, um einschätzen können, ob Risiken bestehen, an eine bestimmte Technologie gebunden zu sein, bzw. ob technische Governance-Risiken eingegangen werden, etwa weil ein Modell nicht mehr unterstützt wird oder verfügbar ist. Angesichts der derzeitigen Rechtslage im Bereich generativer KI ist es ratsam, einen Backup-Plan parat zu haben, wenn Sie kritische Datenworkflows mit LLMs oder anderen Modellen entwickeln, die gegebenenfalls auf privaten oder urheberrechtlich geschützten Inhalten trainiert wurden.
Bei Open-Source-Modellen haben Sie außerdem die Möglichkeit, das Modell auf seine Fähigkeit zur Memorierung von Daten hin zu überprüfen und leichter zu testen, wie sich Änderungen hinsichtlich des Datenschutzes und der Leistungsfähigkeit im Rahmen Ihrer Bewertung auswirken. Wenn der Anbieter eines Modells Model Cards oder anderweitige Dokumentationen aus Gründen der Transparenz veröffentlicht, können Sie damit auch feststellen, welche Daten verwendet wurden und ob Datenschutzmaßnahmen oder Tests, mit denen ein Bias erkannt werden kann, durchgeführt wurden. Darüber hinaus könnten Sie beim Anbieter anfragen, eine Karte zu erstellen, die Auskunft über den Einsatz von Datenschutzmaßnahmen (Privacy Card) gibt.
Um Ihre Workflows zukunftssicher zu gestalten, sollten Sie offene, gut dokumentierte LLMs gegenüber geschlossenen, proprietären LLMs, die kaum Einblick in die Trainingsdaten gewähren, bevorzugen, da die Risiken einfacher und transparenter abzuschätzen sind. Geschlossene, proprietäre Systeme, die möglicherweise auf urheberrechtlich geschützten Daten ohne die Zustimmung des Urheberrechtsinhabers trainiert wurden, können mit hoher Wahrscheinlichkeit verklagt werden. Wurde das System mit personenbezogenen Daten trainiert, die »gescrapt« wurden, gibt es immer noch ein starkes Argument gegen die Verwendung aufgrund der gestiegenen DSGVO-Compliance und des Drucks durch den EU AI Act.
Muss ein Modell vom Markt genommen oder erheblich verändert werden, nachdem die entsprechenden Datenquellen gelöscht werden mussten, möchten Sie nicht Ihren gesamten Datenstack umgestalten müssen. Stellen Sie also sicher, dass Sie für dieses Problem gerüstet sind und eine fundierte Evaluierung durchgeführt haben. Dieses Problem besteht bereits bei den derzeitigen Deployments, die auf ChatGPT basieren, da neue Versionen der zugrunde liegenden GPT-Modelle das Verhalten ohne Vorankündigung ändern können und auch werden.
Es ist sinnvoll, einen Evaluierungsrahmen für generative KI für den Risiko- und Governance-Ausschuss Ihres Unternehmens zu entwickeln, der alle potenziellen Risiken berücksichtigt. Nachfolgend finden Sie eine Reihe von Fragen, an denen Sie Ihre Gespräche ausrichten können:
Durch regelmäßige Gespräche über interne und externe Risikomodelle wird ein Gefühl von Sicherheit und Transparenz unter den wichtigsten Entscheidungsträgern geschaffen. Zudem bieten sie eine hervorragende Gelegenheit, das Verständnis für die Funktionsweise von Machine Learning, KI und Datenschutz zu verbessern. Die Unternehmen und Einrichtungen, die diesen Gesprächen Priorität einräumen, werden in Bezug auf Daten und Datenschutz einen höheren Reifegrad erlangen und besser in der Lage sein, mit der zunehmenden Regulierung, den Risiken und den neuen Möglichkeiten, die sich durch KI und Daten ergeben, umzugehen.
Zur Bewertung von Datenschutztechnologien, wie Sie es in den Anwendungsfällen dieses Kapitels getan haben, benötigen Sie ein sachkundiges Team. Tragen Sie zum Wissensaustausch bei, indem Sie sich mit anderen austauschen, eine Dokumentation bereitstellen und dafür sorgen, dass sich mehr Teammitglieder mit diesen Themen auskennen. Bei einigen Teams mag es ausreichen, eine Person zu haben, die sich mit den Technologien auskennt und sie dem Rest des Teams gut vermitteln kann. Bei anderen Teams sollten Sie das Wissen mithilfe neuer Lernangebote erweitern und die Kenntnisse ausbauen, bevor Sie fortfahren.
Wenn Sie eine neue Technologie in einen bestimmten Workflow einbinden, wird dies zunächst einmal dazu führen, dass sich das Vorgehen stark verlangsamt. Datenschutztechnologien in Betracht zu ziehen und ihre Auswirkungen auf das System sowie den Aufwand, der mit der Integration in die Systeme verbunden ist, zu bewerten, erfordert eine gewisse Routine. Gerade deshalb ist es so wichtig zu dokumentieren, damit Sie besser einschätzen können, wie sich die Ansprüche an den Datenschutz in Ihrem Unternehmen entwickeln, und anhand dessen einen allgemeinen Ansatz erarbeiten können, sollten immer wieder die gleichen Bedenken zur Sprache kommen oder die gleichen Lösungen verfolgt werden.
Im Rahmen der Bewertung einzelner Datenschutztechnologien sollten Sie möglichst versuchen, verschiedene Ansätze zu kombinieren. Der zweite Anwendungsfall in diesem Kapitel hat gezeigt, dass es Fälle gibt, in denen mehr als eine Technologie infrage kommt und in denen eine Kombination verschiedener Technologien dazu beiträgt, das Problem auf eine bessere Weise zu lösen. Diese Bewertung sollte in Zusammenarbeit mit einem multidisziplinären Team durchgeführt werden, das genau weiß, welche Anforderungen an das Produkt zu stellen sind, welche Bedürfnisse der Kunde hat, wie die gesetzlichen Bestimmungen eingehalten werden und wie die aktuelle Lösung sowie Software und Architektur gestaltet sind. Dank dieser verschiedenen Meinungen können Sie bestimmen, was geeignet ist bzw. in welchem Fall es geeignet sein könnte. Außerdem sorgt es dafür, dass sich sowohl im Team als auch im Unternehmen ein gewisses Bewusstsein verfestigt und sich der Wissensstand erhöht. Mitunter wird in diesen Gesprächen auch schnell erkennbar, welche Lösung sich angesichts der einzugehenden Kompromisse am besten eignet, sodass eine Entscheidung leichtfällt.
Mit klaren und einfach zu handhabenden Bewertungskriterien lassen sich diese Diskussionen wirksam beschleunigen. Wenn Sie, genauso wie bei Software-Features, den Aufwand anfangs gut einschätzen können, können Sie besser bestimmen, ob es sich lohnt, die Zeit und den Arbeitsaufwand in die Entwicklung zu stecken, oder ob Sie die zur Diskussion stehenden Möglichkeiten besser im Rahmen längerfristiger Experimente, Proofs of Concept oder der Konzeption von Plattformen austesten sollten.
Im Zuge dieses Prozesses werden Sie gemeinsam die erforderlichen Schritte ausarbeiten, zunächst mit den infrage kommenden Lösungen experimentieren und anschließend ermitteln, welche davon auch für andere Anwendungsfälle geeignet sind. Ab einem gewissen Punkt wird die Nutzung dieser Technologien so stark ausgeweitet, dass sie schließlich zum normalen Werkzeugkasten der Data Scientists gehören. Bis es so weit ist, haben Sie auch Wege gefunden, wie sich diese Technologien auf unkomplizierte Weise einsetzen und automatisieren lassen.
Bewertungskriterien für PETs
Für die Bewertung von PETs bzw. von Datenschutztechnologien gibt es kein Patentrezept, und Sie werden erst im Laufe Ihrer Arbeit Methoden finden, die für Sie geeignet sind. Es gibt jedoch einige konkrete Ansatzpunkte, die ich aus meiner eigenen Erfahrung mit Ihnen teilen kann. Passen Sie diese Checkliste und die Reihenfolge an die Gegebenheiten Ihres eigenen Unternehmens, Ihre Prozesse und Ihre Präferenzen an:
Wie lauten die Anforderungen oder Einschränkungen, die der Anwendungsfall selbst mit sich bringt? Dabei kann es sich um konkrete Fakten handeln, z. B. um die Größe der Daten, den verwendeten Datentyp sowie die Art der Aufgabe oder um andere »weichere« Anforderungen, wie z.B. die Präferenzen der Nutzer, die Zielsetzungen, die mit dem jeweiligen Produkt verfolgt werden, und um den daraus resultierenden Mehrwert für das Unternehmen.
Holen Sie sich die Meinung von Datenschutz- und Infosec-Teams ein, falls diese in Ihrem Unternehmen vorhanden sind. Wenn nicht, finden Sie heraus, wer sich mit diesen Themen beschäftigt, und holen Sie deren Meinung ein, entweder nach und nach einzeln oder in Form einer Gruppendiskussion. Wo sehen sie Probleme und Risiken? Wie würden sie ermitteln, welche Lösung infrage kommt?
Führen Sie ein Threat Modeling durch, um Datenschutz- und Sicherheitsrisiken zu identifizieren und zu bestimmen, welche Risiken adressiert werden sollten. Führen Sie eine Wahrscheinlichkeitsanalyse durch, sofern Daten verfügbar sind. Bestimmen Sie, welche Rahmenbedingungen für diesen Anwendungsfall gegeben sind, damit Sie die Risiken besser einordnen und einschätzen können. Legen Sie, wenn möglich, gemeinsam mit den Beteiligten aus Schritt 2 fest, welche Risiken priorisiert werden sollten.
Nutzen Sie das Wissen und die Erkenntnisse aus diesem Buch und aus Ihrer kontinuierlichen Weiterqualifizierung. Ist das Problem im Zusammenhang mit dem Datenschutz oder eher im Zusammenhang mit der Geheimhaltung anzusiedeln? Welche Vorgaben müssen Sie in Bezug auf Datenverarbeitungsverträge oder -anforderungen aus rechtlicher Sicht beachten? Wem gehören die Daten, und wie sehen deren Vorgaben hinsichtlich des Datenschutzes aus? Beginnen Sie damit, die Anforderungen aus technologischer Sicht zu skizzieren, und berücksichtigen Sie dabei alles, was Sie inzwischen gelernt haben.
Auf der Grundlage der Ergebnisse von Schritt 4 sollten Sie nun ein klares Bild davon haben, welche Technologien geeignet sind und welche eher nicht infrage kommen. Gehen Sie zurück zu Schritt 1 und eruieren Sie anhand der Produktanforderungen und des Anwendungsfalls, welche durchführbar sind. Wenn Sie einen Greenfield-Ansatz verfolgen, haben Sie gegebenenfalls die Flexibilität, mehrere Technologien auszuprobieren und sogar Proofs of Concept zu erstellen. Wenn Sie nur einen kurzen Zeitrahmen haben und Ihre Vorgaben sehr spezifisch sind, sollten Sie direkt mit der Implementierung beginnen und versuchen, diese in kleinen, inkrementellen Schritten durchzuführen statt auf einmal. Behalten Sie dabei stets das Produkt, die Daten, den Datenschutz und die Kunden im Auge, um sicherzustellen, dass Ihre Implementierung für alle Beteiligten sinnvoll ist. Suchen Sie nach Kompromissen und erstellen Sie eine Roadmap, sofern sich modernste Datenschutztechnologien zur Lösung des Problems anbieten, diese aber nicht ohne Weiteres in die aktuelle Plattform integriert werden können oder andere Einschränkungen ein Hindernis darstellen.
Je nach Branche und Unternehmen sind Machine-Learning- und Data-Science-Workflows unterschiedlich stark automatisiert. Wenn Sie in einem Unternehmen arbeiten, in dem die Datenverarbeitung bereits sehr ausgereift ist, verfügen Sie wahrscheinlich schon über eine weitreichende Automatisierung der Datenpipelines, der Data-Science-Workflows und sogar über MLOps-Prozesse, z. B. CI/CD-Pipelines für Ihre Machine-Learning-Workflows. Wenn Sie in einem Unternehmen arbeiten, das gerade erst dabei ist, Data Science und Machine Learning einzuführen, sind die Prozesse in Ihrem Unternehmen vermutlich noch nicht so stark automatisiert.
Unabhängig vom Entwicklungsstand Ihres Unternehmens hat sich die Branche innerhalb der letzten zehn Jahre hin zu einer stärkeren Automatisierung und einem höheren Softwarestandard entwickelt. Sowohl Cloud-Anbieter als auch Anbieter von Datenplattformen bieten inzwischen einfache Möglichkeiten, einzelne Arbeitsschritte im Rahmen von Data-Science-Projekten – wie Data Wrangling, Datentransformationen, explorative Datenanalyse und das Training von Machine-Learning-Modellen – in die bestehende Infrastruktur einzubinden.
Durch diese zunehmende Automatisierung ergeben sich hinsichtlich des Einsatzes von Datenschutztechnologien neue Möglichkeiten, aber auch Herausforderungen. Wenn Sie in einem Unternehmen mit einem eigenen Plattformteam arbeiten, können Sie sich mit diesem zusammenschließen und Datenschutztechnologien und -bibliotheken schrittweise direkt in die Plattform integrieren. So können Sie und andere Data Scientists diese als Kernbestandteil der Entwicklung und des Deployments von Workflows nutzen. Wenn Sie jedoch in einem Team arbeiten, das hauptsächlich Softwarelösungen und Services von Cloud-Anbietern nutzt, um Ihre Verarbeitungsund Trainings-Pipelines zusammenzustellen, sind Sie darauf angewiesen, die integrierten Funktionen Ihres Cloud-Anbieters zu nutzen oder Open-Source-Bibliotheken für Datenschutztechnologien zu installieren und sie in Ihren Workflow zu integrieren, wobei Sie darauf achtgeben müssen, dass dadurch keine anderen Verarbeitungsprozesse beeinträchtigt werden.
Da immer mehr Open-Source-Bibliotheken für diese Technologien verfügbar sind, können Sie davon ausgehen, dass dies künftig auch bei den Cloud-Angeboten der Fall sein wird. Wenn Sie der Meinung sind, dass es derzeit noch zu schwierig ist, diese Prozesse zu automatisieren, sollten Sie die Gespräche erneut aufnehmen, sobald die Technologien in größerem Umfang verfügbar oder einfacher zu nutzen sind. So sollten Ihr Team und Ihr Unternehmen auf jeden Fall gerüstet sein, wenn es so weit ist, dass diese Technologien in größerem Maße verfügbar sind.
Ein Teil dieses Übergangs besteht darin, Datenschutz zu einem normalen Bestandteil aller Datenworkflows werden zu lassen. Doch wie lässt sich das bewerkstelligen?
Wenn Sie diese Schritte befolgen, sollte Datenschutz ein integraler Bestandteil der Datenarbeit in Ihrem Unternehmen werden. Damit sich diese neue Kultur etabliert, bedarf es jedoch regelmäßiger Übung mit zunehmend größeren Gruppen innerhalb des Unternehmens. Was zunächst als in kleinem Rahmen stattfindende Erkundung oder Nachforschung beginnt, wird mit der Zeit und durch regelmäßige Wiederholungen allgemein akzeptiert und zur Selbstverständlichkeit.
Wenn Sie sicherstellen, dass alle Beteiligten verstehen, welche Vorteile Datenschutz mit sich bringt, wird dies dazu führen, dass er sich als Standard etabliert. Das »Warum« der Datenschutztechnologie zu verstehen, ist genauso wichtig wie das »Wie« – wenn nicht sogar wichtiger. Können Sie die Produktverantwortlichen in Ihrem Unternehmen davon überzeugen, dass es Ihren Kunden und Produkten nutzt, wird sich im gesamten Unternehmen ein größeres Bewusstsein für Datenschutztechnologien bilden. Gespräche mit den Akteuren aus dem Marketing und der Unternehmensentwicklung über die Vorteile in Bezug auf Reputation und Risiken tragen dazu bei, die Botschaft noch weiter zu verbreiten. Entscheidend dabei ist, dass Sie Datenschutz als zentrales Wertversprechen Ihres Unternehmens herausstellen.
Dazu könnten auch Gespräche mit wichtigen Vertretern des Managements und des Unternehmens gehören, um sie mit den Begriffen, Ansätzen und Zwecken einer solchen Technologie vertraut zu machen. Allerdings sollten Sie nicht erwarten, dass derzeit noch unbekannte Lösungen bereits morgen in Ihre Kernsysteme integriert werden. Wenn Sie sich jedoch einige Monate Zeit nehmen und den Sinn und Zweck von Datenschutztechnologien aufzeigen sowie den Mehrwert hervorheben, den diese Technologien für eine zukunftsorientierte Datenverarbeitung haben, können Sie es schaffen, die Ungewissheit auszuräumen und den Weg für eine breitere Akzeptanz zu ebnen.
Dieser Prozess kann aber auch bedeutend kürzer ausfallen. Sollte Ihre Branche stark reguliert sein, suchen wichtige Stakeholder möglicherweise bereits nach entsprechenden Möglichkeiten, sie wissen aber nicht, wonach sie eigentlich suchen sollen. Das Wissen, das Sie durch dieses Buch erworben haben, wird Ihnen dabei helfen, Ihre Kenntnisse zum Datenschutz weiter zu vertiefen und neue Anwendungsfälle zu entwickeln, bei denen Datenschutz im Vordergrund steht.
In einigen Unternehmen werden Datenschutztechnologien wahrscheinlich zunächst nur im Rahmen der Forschungsaktivitäten, in Labs oder in Innovationszentren und nicht direkt bei der Verarbeitung geschäftskritischer Daten in Betracht gezogen werden. Doch wenn Unternehmen verschiedene neue Ansätze in diesen sichereren Umgebungen testen, werden sie sie besser einschätzen können, und die Unsicherheit in Bezug auf ihre Anwendungen wird sich legen. Gehen wir nun der Frage nach, wie sich das mithilfe interner und externer Forschungsteams erreichen lässt.
In diesem Buch wurden zahlreiche Technologien beschrieben, die immer noch in der Entwicklung sind und mit denen neue Wege beschritten dahin gehend werden, wie sich Data Science und Machine Learning datenschutzgerecht gestalten lassen. Diese Entwicklung wird weiter anhalten – und neue Bücher, Workshops, Forschungsarbeiten und Ideen werden sie weiter vorantreiben.7
Damit Ihnen keine neuen Entwicklungen entgehen oder wenn Sie nicht weiterkommen und Ihr Anwendungsfall oder Ihr Problem am besten durch etwas gelöst wird, das Sie in einem Forschungsbeitrag gelesen haben, ist es sinnvoll, direkt mit den Forscherinnen und Forschern in Kontakt zu treten. Auf diese Weise können Sie den Datenschutz von Anfang an berücksichtigen und eine Lösung entwickeln, die dem jeweiligen Risikomodell und Anwendungsfall angemessen ist. Zudem können Sie Ihre eigene Forschungsabteilung dazu ermutigen, ihre Kompetenzen im Bereich Datenschutz auszubauen, oder Sie können mit externen Forschern zusammenarbeiten, die bereits mit diesen Technologien vertraut sind.
Wenn Sie eine Bewertung von Open-Source-Bibliotheken vornehmen oder Forschungsarbeiten zum Thema Datenschutz lesen, werden Sie vielleicht auf eine Forschungsgruppe oder einzelne Forscherinnen und Forscher aufmerksam, die oder der an einer Bibliothek oder einem Ansatz arbeitet, der Sie interessiert. Ziehen Sie in Erwägung, diesen Menschen eine Nachricht zu schreiben, in der Sie ihre Arbeit würdigen und erläutern, wie Sie sie anwenden könnten. In der Regel ist dies für Sie und die Forscher äußerst spannend. Denn sie wissen die Anerkennung zu schätzen und freuen sich darüber, dass ihre Arbeit in der Branche als nützlich erachtet wird.
Ganz gleich, um wen es sich bei dem Forscherteam handelt – ein direkter Kontakt kann sich lohnen, wenn Sie Fragen zu ihrem Ansatz haben. Bereiten Sie sich allerdings ausreichend vor und prüfen Sie, ob Sie Ihre Fragen gegebenenfalls auch selber beantworten können. Falls nicht, versuchen Sie, bei Ihren Fragen so weit wie möglich allein voranzukommen. Wie alle anderen sind auch Forscher sehr beschäftigt und müssen Prioritäten setzen, um die Menge an eingehenden Nachrichten, ihre reguläre Arbeit und ihre eigenen Recherchen bewältigen zu können. Wenn Sie sich vor Kontaktaufnahme angemessen vorbereiten, ist es wahrscheinlicher, dass Ihre Fragen in einem interessanten Austausch münden.
Wenn der Forscher bzw. die Forschungsgruppe im akademischen Bereich und nicht in der Industrie arbeitet (wie Google, OpenAI usw.), bietet sich Ihnen möglicherweise die Chance, den für die Experimente und Tests verwendeten Code einsehen zu können. Es gibt zwar viele Befürworter von offener Forschung und Wissenschaft, doch nicht jeder veröffentlicht seinen Code und seine Daten zu Zwecken der Reproduzierbarkeit. Allerdings sind viele Forscherinnen und Forscher gern bereit, den Code mit Ihnen zu teilen, wenn Sie sie höflich fragen und versichern, ihre Arbeit zu zitieren.
Bei experimentellem Code müssen Sie möglicherweise viel Zeit aufwenden, um ihn in etwas Verwertbares aufzuschlüsseln. Bitten Sie um eine Dokumentation zu dem Code, falls diese weiterhelfen würde. Ich habe schon Python-Dateien mit über 1.000 Zeilen erhalten, die nur wenige oder gar keine Kommentare enthielten, und habe mehrere Tage damit verbracht, den Code zu entschlüsseln und in kleinere Teile zu zerlegen. Überlegen Sie sich gut, wie viel Zeit und Mühe Sie in das Umschreiben des Codes stecken können und auch wollen. Und denken Sie immer daran: Der Forscher bzw. die Forschungsgruppe tut Ihnen einen Gefallen, wenn er bzw. sie den Code mit Ihnen teilt!
Wenn Sie Open-Source-Tools oder Skripte aus der Forschung im Rahmen Ihrer Arbeit nutzen und Verbesserungen vornehmen, können Sie diese auch anderen zukommen lassen, indem Sie sie wieder in die Bibliothek einpflegen oder indem Sie für Ihren speziellen Anwendungsfall einen Fork erstellen, der anderen weiterhilft. Beachten Sie dabei die Richtlinien für Contributions, dokumentieren Sie gut und fügen Sie Tests bei.
Selbst wenn Sie an dem Code keine Verbesserungen vornehmen, sollten Sie dennoch einfach eine Nachricht schicken, um mitzuteilen, dass Ihnen die Bibliothek weitergeholfen hat. Tragen Sie dazu bei, das Thema stärker ins Bewusstsein der Öffentlichkeit zu rücken, indem Sie einen Vortrag im Rahmen einer lokalen Meet-up-Gruppe, am Arbeitsplatz oder auf einer Konferenz halten. Schreiben Sie einen Beitrag, in dem Sie Ihre Erfahrungen teilen. Eine positive Resonanz hilft den Forschern, ihre Arbeit zu finanzieren und ihre Open-Source-Bibliotheken noch weiter auszubauen.
Falls Sie regelmäßig an der Entwicklung von wissenschaftlichen Codes arbeiten oder in der Forschung nach interessanten Herausforderungen in den Bereichen Datenschutz und Data Science suchen und diese bewältigen wollen, sollten Sie eine interne Forschungsgruppe einrichten. Wenn bei Ihnen bereits eine eingerichtet ist oder Sie eine einzurichten gedenken, erfahren Sie im Folgenden, wie nutzbringend diese Teams sein können.
Wenn Sie in einem Unternehmen arbeiten, das über eine interne Forschungsgruppe verfügt, können Sie möglicherweise Einfluss darauf nehmen, welche Themen erforscht werden, indem Sie sie über die Arbeit informieren, die Sie im Bereich Daten und Datenschutz leisten. Das gestaltet sich natürlich bedeutend einfacher, wenn Sie bereits Forscher haben, deren Arbeit sich auf Daten konzentriert. Schwieriger wird es, wenn sich die Forschung Ihres Unternehmens auf etwas ebenso Interessantes konzentriert, das jedoch nichts mit Datenschutz zu tun hat, wie etwa Plastik fressende Algen, grüne Energie oder neue Formen von Wirtschaftssystemen.
Der Austausch mit Interessengruppen und die interne Sensibilisierung für Datenschutztechnologien kann dazu führen, dass sich die Entscheidungsträger in Ihrem Unternehmen dazu veranlasst sehen, in diese Form der Forschung zu investieren mit dem Ziel, die Produkte bzw. das Angebot des Unternehmens von anderen abzuheben. Das führt womöglich dazu, dass letztlich eine Forschungsgruppe gebildet wird oder sogar Ihr Team darum gebeten wird. Herzlichen Glückwunsch, das wäre bereits ein großer Schritt!
Wenn Sie selbst noch keine Forschungsgruppe geleitet und auch noch in keiner gearbeitet haben, werden Sie wahrscheinlich regelmäßig mit einer solchen zusammenarbeiten, allerdings ohne ein vollwertiges Mitglied zu sein. Denken Sie bei der Arbeit mit internen Forschungsgruppen daran, dass sie sich nicht wie andere Teams an einem Produktlebenszyklus orientieren. Ihre Arbeit ist auf Experimente ausgerichtet, und sie können daher nur schwer vorhersagen, was sie innerhalb eines zweiwöchigen Sprints entdecken werden. Diese Denkweise mag Ihnen zwar aus Ihrer Tätigkeit als Data Scientist bereits vertraut sein, aber es lohnt sich, Ihr Team und andere Teams, die mit dieser Gruppe zusammenarbeiten, daran zu erinnern, dass ein längerfristiger Zeitplan und ein größerer Freiraum zur Erforschung im Rahmen ihres Arbeitsalltags ganz normal sind.
Sie sollten optimalerweise auch darauf hinarbeiten, dass die mit den Daten erzielten Forschungsergebnisse im Einklang mit den Unternehmenszielen stehen, und sicherstellen, dass sich die Forschung auf die Themen konzentriert, die im Unternehmen höchste Priorität genießen. Wenn Sie lernen, sich mit Forschenden in diesem Bereich auszutauschen, und dabei die in diesem Buch gelernten Grundlagen einbringen, können Sie letztlich dazu beitragen, dass die zu lösenden Probleme in Form klarer und messbarer Experimente gestaltet werden. Auch wenn es gegebenenfalls zunächst zu Verzögerungen bei Forschungsprojekten kommt, sollten Sie darauf einwirken, dass Anwendungsfälle dokumentiert werden und so die Priorisierung künftig erleichtert wird. Zudem sollten Sie dafür Sorge tragen, dass die Dokumentation der Datenschutzanforderungen der Forschungsgruppe zur Verfügung gestellt wird, sodass sie sich besser auf die Prioritäten des Unternehmens ausrichten kann. Bauen Sie eine Beziehung zu dieser Gruppe auf, die von Interaktion und Experimenten geprägt ist, und stellen Sie nicht nur sicher, dass deren Forschung sinnvoll genutzt wird, sondern auch, dass die Ziele Ihres eigenen Teams erreicht werden.
Ebenso wie bei externen Forschern können Sie Ihre Forschungsgruppe unterstützen, indem Sie eine nützliche Dokumentation erstellen, ihren Code modularer gestalten oder andere Verbesserungen beisteuern. Pflegen Sie einen regelmäßigen Austausch und geben Sie Feedback, wenn Ihre Bibliotheken und Tools von anderen genutzt werden. Indem Sie das Feedback regelmäßig geben und die Gespräche iterativ und regelmäßig führen, können Sie der Forschungsgruppe helfen, Datenschutz und technische Anforderungen besser einzuschätzen, was zu Forschungsergebnissen führen wird, die die Arbeit Ihres eigenen Teams voranbringt.
Wenn Sie selbst in einem solchen Team arbeiten und die Forschung in diesem Bereich vorantreiben, hoffe ich, dass Sie sich bei mir melden und mir von Ihrer Arbeit berichten. Mehr Forschung in diesen Bereichen wird der gesamten »Datenwelt« zugutekommen, und ich bin ein großer Fan davon, den Fokus und die Aufmerksamkeit unserer Branche auf diese wichtige Arbeit zu lenken.
In diesem Kapitel haben Sie die in diesem Buch erworbenen Kenntnisse auf reale Probleme aus den Bereichen Data Science und Machine Learning angewandt, die Ihnen ebenfalls in der Praxis so begegnen könnten. Sie sind nun im Idealfall in der Lage, zu beurteilen, wie Sie die vermittelten Technologien auf Anwendungsfälle und Probleme anwenden können, denen Sie regelmäßig begegnen.
Darüber hinaus haben Sie gelernt, wie Sie auf pragmatische Weise mit Datenschutzrisiken, die Ihnen in der Praxis begegnen, umgehen können. Sie wissen jetzt, wie Sie das Bewusstsein für Datenschutz schärfen und Datenschutzanforderungen für Datenprojekte dokumentieren können. Indem Sie verschiedene Datenschutzlösungen bewertet und verglichen haben, haben Sie eine Vorstellung davon bekommen, wie diese miteinander kombiniert werden können, um den Anforderungen eines bestimmten Anwendungsfalls bestmöglich gerecht zu werden. Außerdem sind Sie jetzt darauf vorbereitet, mit externen und internen Forschungsgruppen zusammenzuarbeiten, um so zukunftsweisende Entwicklungen in Ihr Unternehmen zu tragen.
Im nächsten Kapitel werden Sie diesen praktischen Ansatz weiterverfolgen, indem Sie sich mit häufig gestellten Fragen zum Thema Datenschutz und Datenschutztechnologien beschäftigen.