RGPD : les règles de l’anonymisation des données

L’anonymisation fait parti des mesures de sécurité qu’il est possible de mettre en oeuvre pour assurer la protection des données personnelles conformément au Règlement général sur la protection des données.

Ce procédé à des nombreuses vertus en matière de conformité s’il est mis en oeuvre correctement. En effet, l’anonymisation est souvent confondue avec la pseudonymisation alors que ces deux procédés sont très différents et entrainent des conséquences juridiques très différentes.

Contrairement à la pseudonymisation, l’anonymisation a pour objet de rendre impossible l’identification d’une personne. Ainsi, le choix de recourir à cette mesure technique, doit être murement réfléchis en amont.

Etudions ensemble les différences sémantiques de ces notions, leurs différentes techniques et leurs conséquences pour votre conformité. Voyons successivement :

  • La définition de l’anonymisation et sa distinction avec la pseudonymisation,
  • Les enjeux de l’anonymisation sur les règles du RGPD,
  • Et les procédés et techniques de pseudonymisation.

1 - RGPD : qu’est-ce que l’anonymisation des données ?

En quoi consiste l’anonymisation d’une donnée ?

La notion d’anonymisation est la grande oubliée des notions définies par le RGPD lui-même (article 4 RGPD). Au sens du droit du numérique, l’anonymisation correspond à un procédé technique qui rend impossible l’identification d’une personne physique de manière définitive.

Concrètement, il s’agit, pour un organisme de ne plus pouvoir relier un certain nombre de données à une personne physique de manière irréversible. Ainsi, même par un croisement de données ultérieur, une manipulation technique, même très complexe, la donnée ne pourra plus jamais être réattribuée à un individu.

Par exemple, appliqué à l’adresse IP (qui est une donnée personnelle puisqu’elle permet d’identifier une personne physique de manière distincte), pour anonymiser cette donnée, il faudrait modifier l’identité du sujet de manière définitive de telle sorte à ce que même par un recoupement avec d’autres bases de données, il ne soit plus possible de revenir en arrière.

En résumé, l’anonymisation :

  • Transforme les données,
  • Entraînant ainsi la perte du caractère identifiable des données,
  • De manière irréversible (pas de retour arrière possible),
  • Tout en veillant à ce qu’elles restent exploitables.

👉 Dès lors que les données ne permettent plus d’identifier un individu, ces informations ne correspondent plus à des données à caractère personnel.

💡Pour rappel, il ressort de l’article 4 RGPD que les données à caractère personnel sont toutes les informations se rapportant à une personne physique identifiée ou identifiable directement (exemple : nom et prénom) ou indirectement (exemple : le numéro de sécurité sociale, une adresse e-mail, l’enregistrement des conversations).Dès lors, toutes les données qui permettent de remonter à une personne physique, même indirectement, sont des données à caractère personnel.

En conséquence, si la donnée ne permet pas de remonter à une personne physique, ce n’est plus de la donnée personnelle et ce n’est qu’une “simple” donnée. Le RGPD s’appliquant uniquement aux données à caractère personnel, l’anonymisation permet de s’affranchir de toutes les règles du RGPD sur ces données.

Anonymisation et pseudonymisation : quelle différence ?

À l’inverse de l’anonymisation, la pseudonymisation est définie par le RGPD à l’article 4 comme l’action par laquelle un organisme relie des données personnelles non plus à l’identité de la personne concernée mais un pseudo ne permettant plus de l’identifier directement.

L’anonymisation consiste à altérer la donnée de manière irréversible pour rendre impossible l'identification d’une personne. En revanche, la pseudonymisation  consiste à remplacer les données directement identifiantes (nom, prénom) par des données indirectement identifiantes (alias). Il s’agit d’un remplacement des données qui n’efface pas le caractère personnel des informations. De plus, ce processus est réversible.

À retenir : dès lors qu’il est possible d’identifier la personne par un procédé, même complexe ou par un croisement de donnée, alors la donnée est pseudonymisée.

Pourquoi distinguer la pseudonymisation et l’anonymisation ?

  • Les données pseudonymisées restent des données à caractère personnel car elles permettent de remonter à une personne physique identifiable. Cette méthode limite le risque de corrélation directe entre des informations nominatives mais ne supprime pas le caractère nominatif des informations exploitées. Elles restent soumises aux règles du RGPD. La pseudonymisation est une mesure de sécurité car elle ne permet pas la lecture de l’identité de la personne aussi facilement que la donnée initiale.
  • Les données anonymisées n’étant plus considérées comme des données personnelles, le RGPD ne s’applique pas. L’anonymisation se présente plus comme une mesure de dénaturation que de sécurité.

2 - Quels sont les enjeux de l’anonymisation des données ?

Les avantages de l’anonymisation

Les avantages de l’anonymisation sont très simples : cela vous permet de vous affranchir totalement des règles du RGPD ! Pour rappel, le RGPD n’a vocation à protéger uniquement les données personnelles des individus. Dès lors qu’une donnée n’identifie personne, me RGPD n’a rien à protéger.

En conséquence vous êtes totalement libre dans l’utilisation de ces données. Par exemple :

  • Vous n’avez plus l’obligation de déclaration l’utilisation que vous faites de ces données dans un registre de traitements (article 30 RGPD) ;
  • Vous n’êtes limité par aucune durée de conservation !
  • Vous pouvez réutiliser ces données comme bon vous semble : transfert, croisement, partage, accès public à ces données etc. ;

Cas d’utilisation de l’anonymisation

Dans quel cas l’anonymisation peut être utile ?

Pour continuer d’utiliser des outils américains

L’anonymisation peut s’avérer très utile lorsque vous utilisez un outil qui n’est pas conforme au RGPD ! Tel est notamment le cas lorsque vous faites appel aux services d’une entreprise américaine comme c’est le cas de beaucoup d’organismes aujourd’hui.

Ainsi, lorsque vous utilisez les services d’un hébergeur américain comme AWS ou Azure vous opérez un transfert de données vers les Etats-Unis qui est théoriquement prohibé depuis l’arrêt Schrems II du 16 juillet 2020 de la Cour de justice de l’Union européenne (CJUE).

L’une des mesures permettant de continuer d’utiliser les services d’hébergeurs US sans craindre une sanction de la CNIL est d’anonymiser les données qui y sont stockées car ces données échapperont aux règles du RGPD.

Attention, ce procédé n’est pas possible avec tous les outils américains. Par exemple Google Analytics ne permet pas d’anonymiser les données collectées par l’outil pour vos besoins. De plus, l’utilité de type d’outil est justement de pouvoir collecter des données personnelles. L’idéal est de s’équiper d’un autre outil comme Matomo.

Dans le domaine de la santé

Ce processus peut être utile notamment concernant les :

  • publications de données,
  • les études,
  • ou encore les sondages.

Par exemple : la mise en œuvre d’un traitement de données à caractère personnel ayant pour finalité la réalisation d’études scientifiques à partir de données de santé a été autorisée par la CNIL en raison de l’anonymisation des fiches de soins électroniques.

⚠️ Pour s'affranchir des règles sur la protection des données, les données doivent être parfaitement anonymisées et ne jamais permettre l’identification d’une personne. La publication de données non ou mal anonymisées constitue un manquement à l’obligation de confidentialité et donc à une violation des données. C’est pour cette raison que l’anonymisation des données doit respecter certaines règles.

3 - Construire sa solution d’anonymisation

Cartographie des données à anonymiser

L’anonymisation doit :

  • Empêcher toute possibilité de ré-identifier les personnes,
  • Tout en préservant l’utilité du jeu de données.

Pour concilier ces deux objectifs, la CNIL a émis des recommandations à suivre pour construire son processus d’anonymisation dès la conception du projet (privacy by design) :

  1. Identifier les informations à conserver selon leur pertinence : vous devez distinguer les informations importantes des informations secondaires voire pouvant être supprimées. Cette check-list est primordiale car le processus d’anonymisation est irréversible. Si certaines informations à conserver obligatoirement permettent une ré-identification même indirecte des individus, mieux vaut appliquer la pseudonymisation que l’anonymisation.
  2. Supprimer les éléments d’identification directe ainsi que les “valeurs rares” : Les “valeurs rares” sont des informations qui ne permettent pas d’identifier directement les individus mais peuvent aboutir à la ré-identification de ceux-ci. Par exemple, si on laisse apparaître les âges dans une étude, les personnes centenaires étant rares, celles-ci, même en l’absence de tout autre information, sont plus facilement identifiables. Idem, concernant une étude sur des données de santé, si une maladie est extrêmement rare, les personnes atteintes pourraient devenir identifiables.
  3. Définir la finesse idéale et acceptable pour chaque information conservée : vous allez définir le niveau de précision nécessaire pour telle ou telle donnée.

👉 Vous devez définir des priorités. Par exemple pour une donnée : vaut-il mieux conserver une grande finesse sur telle information ou plutôt conserver telle autre information ?

Une fois avoir défini une stratégie d’anonymisation qui n’empêche pas l’exploitation des données utiles au traitement, vous devez vous demander à quel stade ces données seront anonymisées. C’est important au regard de l’application du RGPD !

Choisir une technique d’anonymisation des données

Une fois les données à anonymiser répertoriées, vous allez pouvoir déterminer le procédé d’anonymisation à mettre en place.

La randomisation

La randomisation a pour enjeu de protéger le jeu de données contre le risque d’inférence, c’est-à-dire le risque de déduire de nouvelles informations sur un individu. Les techniques de randomisation des données transforment les données afin qu’elles ne puissent plus être attribuées à une personne en particulier. Cela nécessite d’accepter que les données soient moins précises et que leur véracité soit altérée. Toutefois, la répartition globale est conservée.

Exemples de techniques de randomisation :

  • Permutation : intervertir les attributs des individus. Par exemple, les dates de naissance,
  • Ajout de bruit : modifier les attributs afin de les rendre moins précis. Par exemple, ajouter +5 ans sur chaque date de naissance,
  • Confidentialité différentielle : produire des aperçus anonymisés d’un ensemble de données tout en conservant une copie des données originales.

Il s’agit de jouer sur différents leviers pour ne pas voir échouer sa stratégie. Par exemple, la base de données initiale de Netflix avait été rendue publique « anonymisée », c’est-à-dire ne comprenant aucune information d’identification des utilisateurs (hormis les évaluations et les dates). 68% des personnes figurant dans cette base ont été identifiées par croisement de données.

La généralisation

La généralisation a pour effet d’éviter l’individualisation d’un jeu de données et de limiter les possibles corrélations du jeu de données avec d’autres jeux de données. Cette technique d'anonymisation consiste à modifier l’échelle ou l’ordre de grandeur des attributs des jeux de données afin qu’ils soient communs à un ensemble de personnes et non à une personne en particulier.

Exemples de technique de généralisation :

  • Le k-anonymat : consiste à généraliser les valeurs des attributs. Par exemple, indiquer la même date de naissance pour tous.
  • Le l-diversité et le t-proximité : consiste à créer des classes et à attribuer à chacune de ces classes une valeur différente. Ces classes ressemblent à la distribution initiale des données mais avec des attributs modifiés.

Pour  pallier les risques d’attaques par inférence, le mieux est de combiner le k-anonymat avec les autres techniques d’agrégation. Toutefois, ces techniques de généralisation et de randomisation ne répondent pas toujours pleinement aux 3 critères énoncés par le CEPD (ci-dessous). Les données synthétiques permettent en revanche une meilleure anonymisation.

Les données synthétiques

Ces méthodes d’anonymisation reposent sur la création de modèles permettant de comprendre et reproduire la structure globale des données d’origine : les réseaux neuronaux adversaires (GAN) et les méthodes reposant sur des distributions conditionnelles.

Son avantage est de garantir la finesse et la pertinence statistique des données générées. Quelle que soit la technique d’anonymisation, vous devez l’évaluer pour savoir si vous êtes en conformité avec la réglementation sur la protection des données.

Évaluer votre solution d‘anonymisation

Une solution d’anonymisation doit être construite au cas par cas, de manière réfléchie. Pour vous aider à évaluer vos méthodes d’anonymisation, le CEPD (Comité Européen de la Protection des Données, ancien G29) propose une grille d’évaluation reposant sur trois critères cumulatifs :

  • L’individualisation : est-il possible d’isoler des informations permettant d’identifier un individu dans un jeu de données ?

Si oui, l’anonymisation n’est pas conforme. Par exemple, un consultant en recrutement gère ces CV dans une base de données. Sur les CV, les noms et prénoms sont remplacés par un numéro individuel. Ce numéro permet donc d’individualiser les personnes. Dans ce cas, le remplacement des coordonnées par un numéro s’apparente à une technique de pseudonymisation plus que d’anonymisation.

  • La corrélisation : est-il possible de relier entre elles des informations distinctes concernant un même individu ?

L’anonymisation doit permettre d'interdire la moindre corrélation entre les ensembles de données correspondant à la même personne ou à un même groupe de personnes. Dans le cas contraire, les données ne sont pas anonymisées.

  • L’inférence : est-il possible de déduire de l’information supplémentaire sur un individu avec les données disponibles ?

L’anonymisation doit interdire la déduction de nouvelles informations sur un individu. Par exemple, si un jeu de données comprend des informations de santé relatives à l’infertilité et que toutes les femmes interrogées ayant entre 38 et 41 ans sont suivies par un centre de PMA, on peut devenir que X, participante âgée de 39 ans ayant répondu au sondage, l’est aussi.

👉 L’anonymisation est réussie si l’ensemble de données ne permet ni d’individualiser ni de corréler ni d’inférer. Si l’un de ces critères n’est pas rempli, l’ensemble de données est considéré comme non anonymisé et doit être protégé au titre des données personnelles.

Une technique d’anonymisation qui respecte ces trois critères complémentaires offre une protection solide contre toute tentative de ré-identification.

Pour vous aider à chaque étape de votre conformité, pensez à utiliser Leto, le logiciel RGPD. Réserver une démo avec nos experts.

A propos de l'auteur
Garance Bouvet

Avocate de formation, Garance a plus de 10 années d'expérience en droit public, droit constitutionnel et est experte en protection des données personnelles.

Cela pourrait vous intéresser

S'inscrire à la newsletter RGPD de Leto

Chaque semaine, on parle de votre conformité aux règlements de protection des données personnelles.

Merci ! Nous avons bien reçu votre inscription.
Aïe ! Quelque chose n'a fonctionné. Pourriez-vous recommencer?
Rejoindre