Qu'est-ce que le masquage des données ?

Le masquage des données consiste à masquer les données en modifiant leurs lettres et leurs chiffres d'origine. Les exigences réglementaires et de confidentialité contraignent les organisations à protéger les données sensibles qu'elles récupèrent sur leurs clients et leurs activités. Le masquage des données crée de fausses versions des données d'une organisation en modifiant les renseignements confidentiels. Diverses techniques sont utilisées pour créer des modifications réalistes et à la structure similaire. Une fois les données masquées, vous ne pouvez pas utiliser des méthodes d'ingénierie inverse ni revenir aux valeurs de données de départ sans accéder au jeu de données d'origine.

Les cas d'utilisation du masquage des données

Les techniques de masquage des données aident les entreprises à respecter les réglementations relatives à la confidentialité des données telles que le règlement général sur la protection des données (RGPD). Elles permettent de protéger de nombreux types de données, comme les données d'identification personnelle (PII), les données financières, les informations protégées sur la santé (PHI) et la propriété intellectuelle.

Intéressons-nous maintenant à certains cas d'utilisation du masquage des données.

Développement sécurisé

Les tests réalisés au sein d'environnements de développement et de test de logiciels doivent être effectués sur des jeux de données réels ; cependant, l'utilisation de données réelles soulève des problèmes de sécurité. Le masquage des données permet aux développeurs et aux testeurs de travailler avec des données de test réalistes qui s'apparentent aux données d'origine, sans exposer d'informations sensibles. Les risques de sécurité sont ainsi réduits pendant les cycles de développement et de test.

Analyse et recherche

Le masquage des données permet aux scientifiques des données et aux analystes de travailler avec de grands jeux de données sans mettre en danger les droits individuels à la vie privée. Les chercheurs retirent des informations et des tendances précieuses des données tout en préservant la confidentialité. Les scientifiques peuvent par exemple s'appuyer sur des jeux de données anonymisés pour étudier l'efficacité de nouveaux médicaments, analyser les résultats des traitements ou examiner les effets secondaires potentiels.

Collaboration externe

Les entreprises ont fréquemment besoin de partager des données avec des partenaires, des fournisseurs ou des consultants en externe. En masquant certains champs ou attributs, elles peuvent collaborer avec des parties externes tout en protégeant les données sensibles.

Formation des employés

Il est possible d'utiliser le masquage des données dans le cadre de la formation des employés ou des démonstrations de logiciels. En masquant les données sensibles, les entreprises peuvent utiliser des exemples réalistes sans exposer de véritables données clients ou commerciales. Les employés sont en mesure d'acquérir et de mettre en pratique des compétences sans accéder à des données qu'ils ne sont pas autorisés à consulter.

Les différents types de masquage des données

Voyons maintenant plusieurs types communs de masquage des données.

Masquage statique des données

Le masquage statique des données consiste à appliquer un ensemble fixe de règles de masquage aux données sensibles avant leur stockage ou leur partage. Cette technique est souvent utilisée pour les données qui changent rarement ou qui restent statiques dans le temps. Les règles sont prédéfinies et appliquées de manière cohérente aux données pour assurer un masquage cohérent au sein de plusieurs environnements.

Les détails de ce processus sont particulièrement complexes, mais voici un résumé du processus de masquage statique des données :

  1. Identification et compréhension des données sensibles
  2. Conception et développement des règles de masquage
  3. Sélection des algorithmes de masquage des données adaptés
  4. Application des règles de masquage aux données réelles

Les données masquées peuvent ensuite être partagées selon vos besoins.

Masquage dynamique des données

Le masquage dynamique des données applique des techniques de masquage en temps réel. Il modifie de manière dynamique les données sensibles existantes lorsque les utilisateurs y accèdent ou les interrogent. Cette technique est surtout utilisée dans l'implémentation de la sécurité des données basée sur les rôles au sein d'applications comme le service client ou la gestion des dossiers médicaux.

Le masquage dynamique des données fonctionne comme suit :

  1. Tous les utilisateurs communiquent avec la base de données par l'intermédiaire d'un serveur proxy.
  2. Lorsque les utilisateurs demandent à lire des données, le proxy de la base de données applique des règles de masquage en fonction des rôles, des privilèges ou des autorisations d'accès des utilisateurs.
  3. Les utilisateurs autorisés reçoivent les données d'origine, tandis que les utilisateurs non autorisés reçoivent des données masquées.

Ce processus ne nécessite aucune préparation préalable, mais il peut nuire aux performances.

Masquage déterministe des données

Le masquage déterministe des données garantit qu'une même valeur d'entrée est systématiquement masquée par une même valeur de sortie : par exemple, si un nom spécifique est masqué et remplacé par la valeur « John » au sein d'une instance, il sera constamment masqué et remplacé par la valeur « John » dans tout le système.

Les techniques de masquage déterministe ont souvent recours à la substitution de données ou la création de jeton, où un mappage cohérent est préservé entre la colonne de données d'origine et les valeurs masquées.

Masquage des données à la volée

Le masquage des données à la volée masque les données sensibles en mémoire : il n'est donc pas nécessaire de stocker les données modifiées dans la base de données. Cette technique est utile dans les pipelines de déploiement continu ou en cas d'intégration complexe, où les données circulent fréquemment entre des environnements de production et hors production. À l'étape requise du pipeline, l'application masque les données puis les transmet à l'étape suivante du pipeline.

Obfuscation des données statistiques

L'obfuscation des données statistiques consiste à modifier les valeurs des données sensibles de manière à conserver les propriétés statistiques et les relations au sein des données. Cette technique garantit que les données masquées conservent la distribution globale, les modèles et les corrélations des données d'origine pour une analyse statistique précise. Les techniques d'obfuscation des données statistiques incluent l'application de fonctions mathématiques ou d'algorithmes de perturbation aux données.

Les techniques courantes de masquage des données

Il est possible d'utiliser plusieurs algorithmes pour protéger les données. Voici quelques méthodes courantes de masquage des données.

Randomisation

La randomisation remplace les données sensibles par des valeurs générées de manière aléatoire sans lien avec les données d'origine. Il est par exemple possible de remplacer les noms, les adresses ou tout autre renseignement personnel d'identification par des valeurs fictives ou sélectionnées au hasard.

Substitution

Le masquage par substitution remplace les données sensibles par des données similaires mais fictives. Il est par exemple possible de remplacer les noms réels par des noms provenant d'une liste prédéfinie, ou d'utiliser des algorithmes pour générer des numéros de carte de crédit factices mais ressemblant aux numéros réels.

Mélange

Le mélange réorganise les valeurs d'un jeu de données afin d'en conserver les propriétés statistiques et d'empêcher l'identification des enregistrements individuels. Il s'agit d'une technique couramment utilisée pour conserver les relations au sein des données.

Dans une table de données, il est par exemple possible de mélanger de manière aléatoire les données des colonnes afin que les valeurs des lignes changent. En pratique, les liens entre un client et ses transactions peuvent être conservés tout en modifiant le nom et les coordonnées de la personne.

Chiffrement

Le masquage par chiffrement chiffre les données sensibles à l'aide d'algorithmes cryptographiques. Les données sont converties en un format illisible que seuls les utilisateurs autorisés disposant des clés de déchiffrement adéquates peuvent déchiffrer. Cette technique renforce la sécurité des données, mais nuit aux performances des requêtes, car le déchiffrement est obligatoire pour analyser les données.

Hachage

Le hachage est une technique de transformation qui convertit les données en une chaîne de caractères de longueur fixe. Il est couramment utilisé pour masquer des mots de passe ou d'autres informations sensibles dans le cadre de tâches de vérification des données où la valeur d'origine n'est pas requise.

Création de jeton

La création de jeton remplace les données de production par un jeton ou une valeur de référence généré(e) de manière aléatoire. Les données d'origine sont stockées dans un emplacement sécurisé séparé, et le jeton sert de substitut lors des tâches de traitement ou d'analyse. La création de jeton permet de conserver l'intégrité des données tout en réduisant au maximum le risque d'exposition des renseignements sensibles.

Annulation

L'annulation (ou l'effacement) est une solution de masquage des données qui remplace les données sensibles par des valeurs null ou des espaces vides afin de supprimer efficacement les données du jeu de données. Il s'agit d'une approche qui permet de conserver le format ou la structure des données tout en masquant des renseignements spécifiques.

Les défis relatifs au masquage de données

Examinons à présent les défis les plus courants liés au masquage des données.

Conservation des attributs

Dans le cadre des recherches et des analyses, le masquage des données doit absolument conserver les attributs de données d'origine pour certains types de données. Il est crucial de vérifier que les outils de masquage des données utilisés conservent les types de données d'origine ou la fréquence des catégories de données associées.

Par exemple, si un outil modifie la représentation démographique des données clients ou les statistiques de catégories de cartes lors du masquage des informations relatives aux cartes de crédit, cela peut avoir une influence sur les analyses. La conservation des attributs peut s'avérer difficile dans le cadre de certains processus de masquage des données, tels que la randomisation ou la création de jeton.

Intégrité sémantique

Les fausses valeurs générées doivent respecter les règles et les contraintes métier associées aux différents types de données. Par exemple, les salaires doivent se situer dans une fourchette spécifique, et les numéros d'identification nationaux doivent suivre un format prédéterminé. La conservation de l'intégrité sémantique est une tâche difficile, mais qui garantit que les données masquées restent significatives et réalistes.

Unicité des données

Lorsque les données d'origine doivent avoir un caractère unique, comme les numéros d'identification des employés, la technique de masquage des données doit fournir des valeurs uniques pour remplacer les données d'origine. Le manque d'unicité dans des domaines clés peut être source de potentiels conflits ou incohérences.

Intégration aux flux de travail existants

Il est parfois compliqué d'intégrer le masquage des données aux flux de travail existants, surtout au début de l'implémentation. Les employés peuvent avoir du mal à s'adapter aux nouveaux processus et technologies. Pour assurer l'intégration fluide et réduire au maximum les perturbations, l'organisation doit se concentrer sur une planification minutieuse, la collaboration des parties prenantes et la prise en compte des inquiétudes des utilisateurs.

Comment AWS peut-il prendre en charge vos besoins en matière de masquage des données ?

De nombreuses offres Amazon Web Services (AWS) intègrent des fonctionnalités de masquage des données. Voici quelques exemples :

  • Amazon Transcribe retranscrit automatiquement la parole en texte et peut masquer les données sensibles sur demande.
  • Amazon Redshift utilise SQL pour analyser les données structurées et semi-structurées dans les entrepôts des données, les bases de données opérationnelles et les lacs de données. Il prend en charge le contrôle d'accès basé sur les rôles, la sécurité au niveau des lignes, la sécurité au niveau des colonnes et les techniques de masquage dynamique des données.
  • Amazon Simple Notification Service (Amazon SNS) est un service de notification. Vous pouvez l'utiliser pour définir des stratégies de protection des données permettant de découvrir, de masquer et de protéger les données sensibles lors de leur transmission.

Nous disposons également de guides d'implémentation en cas de masquage des données aux exigences complexes. La solution AI-Powered Health Data Masking permet par exemple aux organisations de soins de santé d'identifier et de masquer les données médicales contenues dans des images ou du texte. Ce guide utilise les services suivants :

Vous pouvez également opter pour l'une des nombreuses solutions de masquage des données prédéfinies disponibles sur AWS Marketplace

Commencez à masquer vos données sur AWS en créant un compte dès aujourd'hui.

Prochaines étapes AWS

Consultez d'autres ressources liées aux produits
En savoir plus sur la sécurité, l'identité et la conformité sur AWS 
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter