search Das Medium für diejenigen, die das Unternehmen neu erfinden

Wie kann man Open-Data-Daten anonymisieren - pseudonymisieren?

Wie kann man Open-Data-Daten anonymisieren - pseudonymisieren?

Von Jérôme Chagnoux

Am 28. Oktober 2024

Seit einigen Monaten hören Sie nur noch von der DSGVO, der berühmten Allgemeinen Datenschutzverordnung der Europäischen Union. Jeder fragt Sie, wie Ihr Unternehmen die Vorschriften einhalten kann, ohne wirklich zu verstehen, worum es geht. Anbieter und Berater sind sehr erfinderisch , wenn es darum geht, Ihnen die Teilnahme an Veranstaltungen zu diesem Thema anzubieten, die jedoch nur einen Überblick über das Thema geben.

Sie haben bereits eine Verschlüsselung eingeführt und den Zugriff auf Ihr Informationssystem genau kontrolliert. Sie beschäftigen sich auch mit der Anonymisierung, die zusammen mit der Pseudonymisierung immer wieder in Ihren Diskussionen auftaucht: Wie soll man das machen? Wie soll man sie organisieren?

INHALT :

Eine späte Erkenntnis

Es ist erstaunlich, dass man bis zum Aufkommen eines starken regulatorischen Zwangs gewartet hat, um eine Disziplin, die es schon so lange gibt, wieder in den Vordergrund zu rücken.

Es ist daher legitim, sich zu fragen: "Warum?"
" Warum haben Sie so lange gewartet?"
" Warum ist das nicht schon längst geschehen?"


... so offensichtlich scheint es in den Augen aller Kunden, dass man nicht mit seinen persönlichen Informationen "spielen" sollte.

Es gibt viele Erklärungen, die letztlich nur diejenigen interessieren, die in der Vergangenheit leben.

Schauen wir uns also das Bild der Gegenwart an: Unternehmen teilen Produktionsdaten (die Daten, die sie für ihr tägliches Geschäft benötigen), um verschiedene Bedürfnisse zu erfüllen:

  • Die gesamte Produktion zu kopieren, damit Entwickler und Administratoren Upgrades, Patches und Updates testen können,

  • Agilität und Wettbewerbsfähigkeit steigern, indem neue Funktionen und Analysemodelle entwickelt werden, indem in einer Umgebung gearbeitet wird, die der Produktion so nahe wie möglich kommt,

  • Trends (Konsum, Verhalten, medizinische Forschung...) analysieren, indem Sie die Daten mit Beratern und Forschern teilen, damit diese statistische oder Machine-Learning-Modelle darauf anwenden können.

Infolgedessen verlassen Milliarden von Kundendaten (unabhängig davon, wie sensibel sie sind) ungeschützt die Produktionsumgebungen.

Die DSGVO als Beschleuniger für die Stärkung der Rechenschaftspflicht aller Beteiligten

Jüngste Studien von Analysten zum Thema Datenschutz zeigen tendenziell, dass Unternehmen keine Möglichkeit haben, herauszufinden, ob Daten, die aus einer Produktionsumgebung stammen, kompromittiert wurden.

Ich denke, das "Warum?" wird deutlich: Ungeachtet aller regulatorischen Einschränkungen ist derjenige oder diejenige, dessen oder deren persönliche Daten verwendet werden, ohne zu wissen, ob sie weitergegeben und kompromittiert werden, Sie, ich, unsere Kinder ...

Der Schutz der Privatsphäre ist ein Grundrecht, das durch die Allgemeine Erklärung der Menschenrechte garantiert wird.

Wir alle müssen diesen Mechanismus umsetzen, der sicherstellt, dass unsere Daten nur zu gerechtfertigten und begrenzten Zwecken verwendet werden.

Aus diesem Grund müssen wir alle, ob Unternehmensleiter oder IT-Manager, den Mechanismus implementieren, der sicherstellt, dass unsere Daten nur für gerechtfertigte und begrenzte Zwecke verwendet werden.

Die richtigen Schutzmaßnahmen identifizieren

Die DSGVO ist also nicht die Antwort auf das "Warum?", sondern kann ein Anfang der Antwort auf das "Wie?" sein.

Zunächst einmal sind der Rechtsrahmen und vor allem die damit verbundenen Geldstrafen und anderen Bußgelder ein Hebel für die Finanzierung der Umsetzung des Anonymisierungsprojekts.

Die Erstellung des von der DSGVO geforderten Verarbeitungsverzeichnisses ist ein gutes Mittel, um genau zu lokalisieren, wo sich die personenbezogenen Daten im Informationssystem befinden... wodurch schnell klar wird, was anonymisiert werden muss.

Zweitens bringt uns die Verordnung dazu, vor allem über die Notwendigkeit der Verarbeitung personenbezogener Daten nachzudenken, und propagiert den Grundsatz der Datenminimierung: "so viel wie für die Zwecke, für die sie verarbeitet werden, erforderlich ist".

Zum Beispiel:

Ist es wirklich notwendig, die gesamten Produktionsdaten in den Entwicklungs-, Qualifizierungs- oder Lernumgebungen zu haben? Ist das letztlich nicht zu teuer und zu riskant?


Datenstichproben sind eine zweite Antwort: Die Risikofläche soll durch die (intelligente) Auswahl eines repräsentativen Datensatzes verringert werden, der dann je nach geschäftlichem Bedarf anonymisiert wird.

Die Verordnung schlägt auch vereinfachte Mechanismen vor, wie die Pseudonymisierung, bei der die personenbezogenen Daten durch ein Pseudonym ersetzt werden, wodurch die Verbindung zur ursprünglichen Person de facto verschleiert wird (sofern die Verbindung zwischen dem Pseudonym und der Person nicht trivial ist oder beibehalten wird).

Wie lässt sich die Anonymisierung von Daten umsetzen?

Abgesehen davon ist keiner dieser Wege für das Unternehmen richtungsweisend, wie es sich organisieren sollte. Vielleicht sind wir hier beim gordischen Knoten der Anonymisierung angelangt:

  • " Soll ich Anwendung für Anwendung anonymisieren?"
  • " Was soll mit Anwendungen geschehen, die persönliche Daten einer Person gemeinsam nutzen?"
  • " Welche Organisationsform wird die Anforderungen der Fachbereiche erfüllen?"
  • " Werde ich bei der Entwicklung des Informationssystems an Agilität verlieren?"

Ganz klar: Die Organisation ist der Schlussstein des Anonymisierungsprojekts und bestimmt seinen Erfolg.

Sie müssen einen "industrialisierten Anonymisierungsdienst" einrichten, der den Bedürfnissen aller IT-Teams gerecht wird, die am stärksten betroffen sein werden:

  • die Fähigkeit haben, alle Technologien zu adressieren (natürlich unter Einhaltung ihrer Lizenzierungs- und Supportregeln) ;

  • ein leistungsstarkes und intelligentes Sampling anbieten: Man gibt sich nicht mit den ersten 1000 Zeilen zufrieden ... man holt sich einen repräsentativen Datensatz aus einer Datenquelle und aus untergeordneten Repositories (um die referenzielle Integrität zwischen Anwendungen zu gewährleisten) ;

  • leistungsfähige Service Levels garantieren: Anonymisierung "on demand" oder automatisiert anbieten ;

  • eine Bibliothek mit vollständigen Anonymisierungsformaten zur Verfügung stellen (zufällige Ersetzung, Löschen von Daten, Neuschreiben ...).

Dieser Anonymisierungsdienst wird dann die Arbeitsmethoden der IT-Teams positiv verändern, mit minimalen Auswirkungen auf ihren Alltag.

Die richtige Wahl des Werkzeugs

Wie Sie sicher bemerkt haben, wird dieses Thema letztlich nicht von der Technik getrieben. Aber wie sieht es mit dem Tooling aus?

Die Literatur wird Sie dazu bringen, die verschiedenen Anonymisierungsalgorithmen wie "k-Anonymität", "l-Diversität", "t-Nähe" oder "differentielle Vertraulichkeit" zu verstehen... deren Wirksamkeit und Schutzniveau Sie beurteilen werden?

All dies sind Werkzeuge, die Experten zur Verfügung stehen, um die richtige Anonymisierung für den richtigen Datensatz zu implementieren.

Ich werde mich stattdessen auf eine industrielle Anonymisierungslösung konzentrieren, die Folgendes sicherstellt :

  • eine Multi-Quellen- und Multi-Ziel-Konnektivität, um das zentrale und verbindende Werkzeug des Unternehmens zu sein, das eine Anonymisierung garantiert, die die anwendungsübergreifende referentielle Integrität respektiert ;

  • einen Assistenten, der es ermöglicht, Anonymisierungsabläufe zu erstellen, die auf den jeweiligen Datensatz zugeschnitten sind (Entdeckung sensibler Daten in der Quelle, Vorschlag geeigneter Algorithmen, Vorschau der Ergebnisse ...) ;

  • die Fähigkeit, Anonymisierungsketten zu automatisieren, um optimierte Servicelevels zu gewährleisten (Nachtverarbeitung, Auffrischung des Datensatzes auf Anfrage ...) ;

  • eine einfache Handhabung, damit das Team, das für den Anonymisierungsdienst zuständig ist, leicht und schnell seine Kompetenzen und Kapazitäten erweitern kann.

Selbstverständlich muss die Lösung gewährleisten, dass sie selbst den bewährten Verfahren der DSGVO entspricht: Verschlüsselung, Zugriffskontrolle für privilegierte Konten, Überwachung usw., denn die Anonymisierungsinfrastruktur wird an der Schnittstelle der personenbezogenen Datenströme liegen.


Die " Data Masking Factory "-Initiative von Oracle erfüllt diese Anforderungen und reiht sich in die Landschaft der Informationssysteme als die agnostische und leistungsfähige Lösung ein, um den Anonymisierungsdienst zu toolisieren.

Mit personenbezogenen Daten ist nicht zu spaßen

2018 ist das Jahr des Paradigmenwechsels: Es ist das Zeitalter der Erkenntnis, dass unsere eigenen persönlichen Daten diejenigen sind, mit denen Unternehmen zu leichtfertig umgehen.

Jeder muss auf seiner Ebene integrieren und verstehen, dass das Spiel mit den Daten vorbei ist.

Die DSGVO kommt als Erinnerung an gute Praktiken, unter denen die Anonymisierung eine mehr als wichtige Rolle spielt.

Über ein einfaches technisches Projekt hinaus bedarf es einer effizienten Organisation und eines effizienten Werkzeugs, um den Fachbereichen einen leistungsfähigen Anonymisierungsdienst zur Verfügung zu stellen.

Artikel übersetzt aus dem Französischen