Datamnésie sélective et droit à l'oubli des données en IA
24/05/2022 - 7 min. de lecture
Cercle K2 neither approves or disapproves of the opinions expressed in the articles. Their authors are exclusively responsible for their content.
Daniel Guinier est Expert de justice honoraire et ancien Expert près la Cour Pénale Internationale de La Haye.
---
La quantité de données quotidiennement créées dans le monde est actuellement supérieure à mille milliards de Mo, avec une croissance annuelle prévue 500 fois supérieure en 2025, tandis que 90 % des données mondiales totales ont été créées au cours de ces deux dernières années, pour établir un univers numérique de 44 millions de milliards de Mo, dont il reste toutefois difficile d'évaluer la part réellement utilisée. Cette démesure quasi-insupportable résulte d'une situation complexe liée à une apparente abondance de ressources associée à la virtualité numérique. Si les responsabilités sont partagées, celles résultant des activités des GAFAM sont parmi les plus importantes, tant leur poids est considérable au point de dépasser parfois celui des États.
Il faut préciser qu'avec la convergence technologique de l'Internet, des réseaux sociaux, de l'intelligence artificielle (IA) et des mégadonnées ("big data"), les données directement collectées ou produites sont en mesure de générer, par diverses transformations, un grand nombre de données dérivées, y compris des métadonnées. Non seulement les systèmes d'analyse agrègent les données brutes mais les systèmes d'apprentissage automatique en extraient des modèles et des propriétés, ce qui se traduit par des rajouts récursifs sous diverses formes et en divers emplacements. Tout ceci induit une progression rapide de la quantité totale de données, avec une part importante qui découle des systèmes mobiles et de la 5G, et de la multiplication des copies principalement dans les centres de données et les espaces "cloud"[1]. Des réseaux de propagation de données complexes sont ainsi constitués en lignées, dont la connaissance sera utile pour la gouvernance.
Tout ceci affecte le climat et l'environnement vus les besoins énergétiques, en infrastructures et en matériels, la confidentialité des données personnelles du fait de leur collecte, leur traitement et leur dissémination et du droit de chacun à l'oubli, voire la convivialité au vu de la persistance de recommandations indésirables fondées sur l'historique, et la sécurité à cause d'anomalies favorisant la capture ou l'injection de données et faussant l'apprentissage automatique. Le besoin en systèmes capables d'oubli est réel et urgent. Idéalement, ils devraient être conçus de façon à permettre l'oubli complet et rapide des données, et de leur lignée résultant des transformations subies.
L'intention de l'auteur est de concentrer ses propos sur ce qu'il appelle une "datamnésie" sélective au regard du droit à l'oubli pour la confidentialité des données personnelles, en particulier en matière d'IA, en présentant succinctement la problématique et des pistes pour le désapprentissage.
Problématique liée à la réglementation
En matière d'IA, l'apprentissage permet de déterminer des tendances susceptibles d'échapper au raisonnement humain. Les technologies sous-jacentes de l'IA et les algorithmes élaborent des modèles souvent à partir de données personnelles provenant de diverses sources : santé, médias sociaux, gestion de clientèle, etc., pour aider à la compréhension et faire des prédictions éclairées. L'apprentissage automatique ("machine learning") exacerbe ce problème car tout modèle entraîné avec les données peut les avoir mémorisées et exposer les utilisateurs. Faire désapprendre des modèles est complexe et coûteux, notamment avec les algorithmes qui utilisent la rétropropagation voire l'apprentissage profond ("deep learning") à partir de données non structurées.
Il est donc difficile de déterminer les enregistrements des données individuelles qui ont été utilisées dans la construction du modèle. Aussi, il peut être nécessaire de reprendre entièrement ce dernier pour s'assurer de leur suppression en respect du Règlement Général sur la Protection des Données (RGPD) de l'Union européenne (UE). Il s'agit d'un processus plus ou moins long et coûteux qui a aussi pour défaut de ne pas apporter d'assurance formelle sur la conformité de ce qui résulte du modèle révisé, pas plus que sur sa validité opérationnelle. Bien des organismes peuvent ainsi être confrontés à des défauts de conformité associés à des pénalités importantes. En effet, le RGPD encadre le traitement des données personnelles sur le territoire de l’Union européenne, en offrant un cadre juridique unique pour permettre de développer les activités numériques au sein de l’UE fondées sur la confiance des utilisateurs. Il s’applique à tout organisme qui traite des données personnelles, dès lors qu'il est établi sur le territoire de l'UE ou que son activité cible des résidents européens[2]. Il concerne également les sous-traitants de données personnelles pour le compte d’autres organismes.
À cet égard, la Commission européenne souhaite la construction d'une IA de confiance et éthique au sein de l’UE, reposant sur un écosystème d'IA favorable à l’innovation sur la base d'un futur règlement sur l’IA et d'une gouvernance harmonisée. En plus du RGPD garantissant la protection des droits fondamentaux et particulièrement celui de la protection des données, l’approche retenue devrait garantir l'interprétation cohérente des dispositions relatives aux algorithmes d'IA dans l'UE.
Il est naturel que les utilisateurs puissent souhaiter que leurs données personnelles et l'influence qui en découle soient complètement oubliées. Les opérateurs et les fournisseurs de services sont alors fortement incités à satisfaire cette demande et se conformer à la loi. Les systèmes d'oubli devront être conçus pour permettre une amnésie complète et rapide des données sensibles et de leurs lignées. Une lignée décrivant les transformations, elle permettra de confirmer que les données proviennent de sources fiables et sont dotées de contrôles suffisants, de façon à en assurer la traçabilité. Elle peut être utilisée pour la gestion des modifications et évaluer les effets des changements tant au niveau technologique qu'à celui des processus opérationnels. Les systèmes d'oubli devraient pour cela rendre cette lignée visible aux utilisateurs, pour le suivi et la suppression complète et en temps opportun sur demande, de façon à ce que les opérations futures s'exécutent comme si ces données n'avaient jamais existé, en spécifiant ce qui est à oublier selon divers niveaux de granularité. Ces systèmes devraient donc être évalués par leur exhaustivité et leur rapidité à se conformer à la loi.
Pistes à explorer et désapprentissage
Plutôt que d'avoir à déconstruire, puis à créer un nouveau modèle quand les données changent au point d'affecter le modèle existant, il serait utile de disposer d'une technique de "datamnésie" sélective. Celle-ci reste à inventer pour ne supprimer que les données individuelles concernées tout en laissant le modèle intact. Les outils actuels utiles à la confidentialité des données paraissent insuffisants. C'est le cas de la "tokenisation", qui consiste à remplacer une donnée critique par un élément équivalent ("token") sans valeur intrinsèque ou signification exploitable hors du système. À son tour, la confidentialité différentielle tente de résoudre ce problème en ajoutant une composante aléatoire aux données brutes, dénommée "bruit", pour rendre imperceptibles les données d'un seul individu, ceci avec un impact plus ou moins limité sur la précision. De même, l'anonymisation des données, introduit un bruit en mesure de fausser l'entraînement. De fait, un niveau élevé de bruit se traduit par des données dont l’exactitude et la fiabilité seront moindres et rendront le modèle incertain.
Avec l'arrivée de plus en plus massive de demandes de suppression de données personnelles, le désapprentissage devient criant pour ne pas avoir à subir de graves conséquences, vue l'incapacité actuelle de valider la suppression de données précises dans un modèle associé aux techniques de "tokenisation", de confidentialité différentielle, ou d'anonymisation. Si la démonstration de la capacité à extraire des données sensibles à partir d'algorithmes et de modèles a été faite, des méthodes plus avancées de désapprentissage automatique sont néanmoins nécessaires avec comme condition essentielle que les changements d'entrée n'affectent ni la validité du modèle, ni les résultats.
L'objectif vise à produire un cadre et des algorithmes d'apprentissage automatique qui permettent de supprimer un enregistrement ou un point de données individuelles et de se retrouver avec un modèle valide qui a complètement désappris les données en question. Une idée serait de séparer les données d'apprentissage automatique en plusieurs composants pour permettre un aggiornamento uniquement sur le composant spécifique lié à la suppression, avant de le replacer dans l'ensemble des données pour constituer un modèle d'apprentissage automatique totalement fonctionnel. Il serait alors possible de supprimer des données tout en ayant à recycler uniquement la part du modèle affecté. Une autre serait de développer des algorithmes de suppression de données directement liés aux algorithmes d'apprentissage automatique, avec des caractéristiques aptes à maintenir une intégrité suffisante des données et la validité du modèle global. Il s'agit avant tout de comprendre comment la suppression de données affecte le modèle et ensuite être sûr que ce dernier reste suffisamment précis, ce qui est une façon de repenser l'apprentissage en intégrant la notion de désapprentissage automatique.
La vérification de véracité du désapprentissage suppose toutefois d'avoir connaissance du code informatique et du modèle, ce qui est rarement le cas au vu de la complexité et de l'invocation du secret des affaires et du droit de propriété.
Bibliographie sélective
Bourtoule L., et al. (2021) : Machine unlearning, 42nd IEEE Symposium of security and privacy, Cornell University, CS, 19 p.
Domingo-Ferrer J. (2021) : The limits of differential privacy and its misuse in data release and machine learning. Communications of the ACM, vol. 64, n° 7, pp. 33-35.Guinier D. (2018) : Place des algorithmes et exigences face à la complexité et à la convergence technologique. Revue Experts, n°139, août , pp. 40-44.
Guinier D. (2021) : L'hébergement des données : un sujet brûlant... Retour sur les convictions et le risque d'indisponibilité. Expertises, n°468, mai, pp. 200-204.
Gupta V., et al. (2021) : Adaptive machine learning, Cornell University, CS, 25 p.
Sekhari A. et al. (2021) : Remember what you want to forget : Algorithms for machine unlearning. Cornell University, CS, 29 p.
---
[1] Outre la conformité aux lois et règlements, la sécurité des données, tant logique que physique, devra être garantie par des mesures de prévention et de protection, en se fondant sur un ensemble ad hoc de normes.
[2] Une société établie à l'étranger mais qui dispose d'un site de e-commerce en français et livre des produits en France se doit de respecter le RGPD.
24/05/2022