Avec l’arrivée du Big Data, l’anonymisation des données est devenue illusoire.
Aujourd’hui pour chaque client ou individu lié à un système informatique on récupère une multitude de données, souvent plusieurs dizaines, voire plusieurs milliers. L’anonymisation des données n’était pas illusoire tant que le nombre de ces données était faible, mais aujourd’hui les fichiers produits permettent souvent de détecter le métier, le montant des revenus, les goûts détaillés des clients, des données relatives à leur santé, etc.
Il est facile de calculer par exemple combien de données à choix oui/non permettent de déterminer l’identité d’un Français parmi les 67,4 millions. Ainsi, 226 = 67.108.864. Il suffit donc de 26 questions à choix oui/non pour potentiellement déterminer qui est le répondant. Or la majorité des données récupérées sont bien plus qualitatives et quantitatives qu’un simple choix oui/non, ayant souvent de 10 à 100 valeurs possibles. Or 1004 = 100 millions, ce qui fait qu’en 4 questions seulement il est alors potentiellement possible de déterminer l’identité de la personne !
Dans le domaine médical, par exemple, dans le cadre du Big Data, le nombre de données récupérées par individu rend impossible toute protection de l’anonymat. Les compagnies d’assurance pourraient très aisément faire des recoupements à partir de données prétendument anonymes, calculant votre risque spécifique, ce qui irait à l’encontre du principe de mutualisation des risques qui est la justification au plan théorique de la compagnie d’assurance.
Un élément a totalement échappé à nos décideurs : anonymiser les données, tout en autorisant par ailleurs d’enregistrer la « description détaillée » d’une personne, permet d’identifier aisément cet individu. Il aurait fallu limiter de manière draconienne à une poignée seulement par individu le nombre de données pouvant être conservées dans un système d’information.
Laisser un commentaire