Vous souhaitez renforcer la sécurité de vos données personnelles et vous mettre en conformité avec le Règlement général sur la protection des données (RGPD) ? Découvrez comment pseudonymiser vos données est un moyen de se mettre en conformité avec le RGPD.
En effet, comme l’anonymisation, la pseudonymisation fait partie des mesures de sécurité que vous pouvez mettre en œuvre pour assurer la protection des données personnelles conformément à la réglementation en vigueur.
Toutefois, la pseudonymisation a pour objet de limiter les possibilités d’identification de la personne concernée et non de la rendre totalement impossible. De plus, ce procédé étant réversible, le choix de recourir à cette mesure technique s’avère moins radical que celui de procéder à l’anonymisation de données.
Ne pas confondre ces deux notions est important car les techniques mises en œuvre sont différentes, mais également leurs conséquences pour votre conformité.
Voyons successivement :
- La définition de la pseudonymisation et sa distinction avec l’anonymisation,
- Les enjeux de la pseudonymisation sur les règles du RGPD,
- Les différentes méthodes de pseudonymisation.
1 - RGPD : qu’est-ce que la pseudonymisation des données ?
Le RGPD défini la pseudonymisation comme le processus par lequel des données à caractère personnel ne peuvent plus être attribuées à une personne précise sans avoir recours à des informations supplémentaires (article 4 RGPD).
💡Pour rappel, il ressort de l’article 4 RGPD que les données à caractère personnel sont toutes les informations se rapportant à une personne physique identifiée ou identifiable directement (exemple : nom et prénom) ou indirectement (exemple : le numéro de sécurité sociale, une adresse e-mail, l’enregistrement des conversations). Dès lors, toutes les données qui permettent de remonter à une personne physique, même indirectement, sont des données à caractère personnel.
Mécanisme de la pseudonymisation
Il s’agit d’un procédé technique consistant à remplacer une donnée directement identifiante par une donnée non identifiante. Vous reliez des données personnelles non pas à l’identité de la personne concernée mais à une information ne permettant pas de l’identifier directement.
L'objectif est de ne plus permettre de relier directement les informations à une personne en particulier, ceci afin de limiter le risque d’identification directe d’un individu.
🔎 Par exemple : des données directement identifiantes, comme le nom de famille, sont remplacées par des données indirectement identifiantes comme un numéro.
Réversibilité du processus
Le procédé est réversible, c’est-à-dire qu’il est toujours possible de faire un retour arrière pour retrouver les identifiants directs des personnes à l’aide d’informations supplémentaires.
⚠️ Ces informations supplémentaires doivent être :
- Conservées séparément,
- Soumises à des mesures techniques et organisationnelles,
- De manière à garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable;
🔎 Par exemple : des tables de conversation conservées séparément, mettant en relation les données directement identifiantes et les numéros afférents, peuvent être utilisées pour retrouver l’identité des personnes concernées.
Concrètement, dès lors qu’il est possible, par un procédé technique, même complexe, de réattribuer ces données à une personne ou qu’elle devienne identifiable, alors il s’agit d’une pseudonymisation.
La différence entre pseudonymisation et anonymisation
Sur le plan technique
L’anonymisation consiste à altérer la donnée de manière irréversible pour rendre impossible l'identification d’une personne. La pseudonymisation n’altère pas la donnée mais se “contente” de remplacer les données directement identifiantes (nom, prénom) par des données indirectement identifiantes (alias, numéro).
👉 L’anonymisation supprime purement et simplement le caractère personnel des données, ce qui n’est pas le cas de la pseudonymisation qui consiste en un simple remplacement de données, pouvant faire l'objet d‘un retour arrière (processus réversible).
🚨 Dès lors qu’il est possible d’identifier la personne par un procédé, même complexe ou par un croisement de données, alors la donnée n’est pas anonymisée mais bien pseudonymisée**.**
Sur le plan juridique
Sur le plan de la conformité RGPD, pseudonymiser ou anonymiser les données emporte des conséquences très différentes :
Les données pseudonymisées :
- Sont des données à caractère personnel puisqu’elles permettent de remonter à une personne physique identifiable,
- Limitent le risque de corrélation directe entre des informations nominatives mais ne suppriment pas le caractère nominatif des informations exploitées,
- Sont soumises aux règles du RGPD.
👉 La pseudonymisation est une mesure de sécurité car elle ne permet pas la lecture de l’identité de la personne aussi facilement que la donnée initiale.
Les données anonymisées :
- Ne sont plus des données personnelles puisqu’elles ne permettent pas de remonter à une personne physique identifiable,
- Suppriment le caractère nominatif des informations exploitées
- Ne sont donc pas soumises aux règles du RGPD.
👉 L’anonymisation est certes une mesure de sécurité mais dans le sens où ces données échappent à la réglementation du RGPD puisqu’il n’existe plus de risque d’altérer la vie privée des personnes.
2 - Quels sont les enjeux de la pseudonymisation des données ?
Les avantages de la pseudonymisation
- Des données conservées : avec la pseudonymisation, toutes les informations existent encore, elles sont simplement “éclatées”. En revanche, l’anonymisation efface les données sources qui deviennent inaccessibles et ne peuvent ainsi plus être reproduites.
- Une technique moins complexe à mettre en œuvre : même si vous n’avez pas besoin de conserver les données nominatives, l’anonymisation peut être très complexe à mettre en œuvre. Sur ce point, la pseudonymisation se présente comme une bonne alternative. En effet, la pseudonymisation doit réduire le risque de mise en corrélation des données substituées avec l’identité originale, mais n’a pas à supprimer tout risque d’individualisation, de corrélation ou d’inférence.
- Conformité au privacy by design : la pseudonymisation permet de se conformer au principe de protection dès la conception (privacy by design) et par défaut (privacy by default).
Les conséquences de la pseudonymisation
Contrairement aux données anonymisées, les règles du RGPD s’appliquent sur les données pseudonymisées. En conséquence :
- Vous conservez l’obligation de déclaration de l’utilisation que vous faites de ces données dans un registre de traitements (article 30 RGPD),
- Ces données sont soumises à une durée de conservation, et une finalité (article 5 RGPD)
- Vous devez les collecter en vous fondant sur une base légale (article 6 du RGPD) : consentement, contrat, obligation légale.
- Vous ne pouvez pas réutiliser ces données comme vous le souhaitez (transfert, croisement, partage, accès public à ces données) etc .
En définitive, l’ensemble des règles du RGPD s’applique indistinctement aux données initiales et aux données pseudonymisées.
👉 Pour tout savoir sur votre mise en conformité au RGPD, consulter notre livre blanc.
Cas d’utilisation de la pseudonymisation
Alors si les règles du RGPD s’applique de la même manière aux données personnelles pseudonymisées ou non, pourquoi pseudonymiser ses données ?
La pseudonymisation est utilisée pour assurer la sécurité des données personnelles traitées par une organisation sans perdre les données nominatives. Ces techniques permettent de masquer l'identité des personnes vis-à-vis des tiers.
Le traitement pour lequel les données sont pseudonymisées ne nécessite pas d’identification directe des personnes. Pour autant, les données nominatives sont conservées à des fins de réidentification ultérieure.
Ainsi, la pseudonymisation s’utilise dans les cas où il est préférable de protéger l’identité des personnes mais que la réidentification des personnes pourrait s’avérer nécessaire.
🔎 Par exemple :
- Pour répondre à des obligations légales, il peut-être nécessaire de remonter aux informations nominatives des personnes,
- Dans le cadre de projets nécessitant de disposer d’informations exactes au niveau individuel sans que les données directement identifiantes ne soient indispensables : c’est notamment le cas pour les expérimentations en data science ou dans le cadre d’un traitement de données à des fins scientifiques (en dehors des données de santé).
3 - Construire sa solution de pseudonymisation
Il existe différentes techniques de pseudonymisation des données. Deux principaux types de procédés de pseudonymisation peuvent être utilisés, reposant sur différentes techniques.
Création de pseudonymes
Ces techniques sont relativement basiques et simples à mettre en oeuvre :
- Compteur : cette technique consiste à substituer un nombre défini par un compteur, aux données directement identifiantes. Le principal avantage du compteur est sa simplicité. Les données d’identité sont remplacées par des numéros séquentiels : 56, 57, 58 …
- Générateur de nombre aléatoire : cette technique consiste à produire des valeurs aléatoires, c’est-à-dire imprévisibles et indépendantes du jeu de données initial. Cette technique ressemble à celle du compteur sauf que les valeurs ne sont pas séquentielles. Les données d’identité sont remplacées par des numéros aléatoires : 956, 37, 128 …
Techniques cryptographiques
- Chiffrement à clé secrète : cette technique consiste à chiffrer les données directement identifiantes pour les rendre incompréhensibles. Le déchiffrement des données n’est possible qu’à condition de connaître la clé secrète qui permet de ré-identifier chaque personne. Les données d’identité initiales ne sont pas remplacées, elles sont toujours présentes, mais sous une forme chiffrée.
- Fonction de hachage : le hachage consiste à pouvoir retrouver un résultat de taille fixe, peu important la grandeur de l’attribut que l’on a entré. Il existe un risque que la fourchette dans laquelle se situent les valeurs soit découverte. Dans ce cas, il est possible d’utiliser la fonction de hachage avec salage, c’est-à-dire qu’une valeur aléatoire, appelée « sel », est ajoutée à la donnée initiale faisant l’objet du hachage.
- La fonction de hachage par clef : la valeur aléatoire appelée ****« sel » n’étant généralement pas secrète, il est possible d’utiliser une clef secrète comme valeur supplémentaire. Si l’on ne connaît pas la valeur de la clé, il est difficile de retrouver la valeur d’entrée. Pour minimiser le risque de trouver cette valeur d’entrée, le responsable de traitement peut changer à volonté la valeur de la clef.
A la différence de l’anonymisation, les solutions de pseudonymisation n’ont pas à rendre impossibles l’individualisation, la corrélation et l’inférence des données, puisqu’elles sont protégées au titre des données à caractère personnel.
Comment choisir la technique de pseudonymisation ?
La technique de pseudonymisation que vous allez choisir dépend principalement de deux paramètres :
- Le niveau de protection requis (selon le degrés de sensibilité des données),
- L’utilité des données pseudonymisées pour les besoins du traitement.
Pour choisir la méthode la plus appropriée à vos besoins, posez-vous les questions suivantes :
- De quelles informations avez-vous besoin ?
- Quel est le degré de sensibilité des données traitées ?
- Devez-vous pouvoir lier les données d’un même individu ?
- Faut-il conserver la structure des données ?
- Qui aura accès aux données masquées ou chiffrées ?
- Etc.
Dans tous les cas, la méthode mise en place (table de correspondance, hachage, chiffrement …) doit permettre d’assurer la confidentialité des données directement identifiantes. Les personnes étant autorisées à y avoir accès sont identifiées et les conditions d’accès spécifiquement définies en amont.
⚠️ Pour rappel, ces mesures ont pour objet de réduire les risques de violation de données personnelles. Dans un tel cas, une notification à la CNIL est obligatoire. Toutefois, chaque cas est spécifique et doit être analysé.
En tout état de cause, s’équiper du logiciel RGPD Leto est le meilleur moyen de piloter votre conformité et réduire vos risques en matière de violation de données. Leto met à votre disposition une brique technologique qui identifie automatiquement les risques pesant sur la sécurité des données que vous conservez. Vous avez une vue complète sur la sécurité de vos données et les actions à mener pour réduire les risques.
Demandez une démo 🤓 !