Cercle K2 neither approves or disapproves of the opinions expressed in the articles. Their authors are exclusively responsible for their content.
Jill-Jênn Vie est Chercheur à l'INRIA & Membre du Groupe d'Experts à la Commission européenne "AI & Data in Education & Training".
---
Les données d’humains, couplées avec de l’apprentissage statistique, ont la possibilité de révolutionner des domaines tels que l’éducation ou la santé : comprendre et améliorer comment les humains apprennent ou comment ils survivent à une maladie. Cependant, c’est compromis par le fait que les données sont par leur nature même très sensibles et que des fuites de données ont dissuadé l’opinion publique.
Mais c’est toujours dans l’intérêt des institutions d’ouvrir un maximum de données afin de les partager avec un plus grand nombre d’experts. La recherche en systèmes de recommandation a beaucoup bénéficié de l’ouverture des jeux de données Movielens et du prix Netflix. Grâce à la mission Etalab du gouvernement, la France est le deuxième pays au monde en matière d’open data, entre la Corée et le Japon. Même le code de l’impôt ou bien la plateforme ParcourSup ont ouvert leurs algorithmes et des statistiques agrégées au niveau des institutions sont même disponibles pour ParcourSup. Afin de créer des services pour recommander un parcours universitaire à des utilisateurs, il faudrait avoir des données plus riches. Il y a toujours un compromis à trouver entre utilité des données et confidentialité des participants.
C’est également vrai pour des institutions décentralisées : pour mener des études médicales qui ont du sens, il faut un échantillon représentatif de la population. Mais certains hôpitaux peuvent avoir un échantillon biaisé de la société. Ainsi, une méthode statistique fonctionnant dans un hôpital peut ne pas convenir à un autre hôpital. C’est pourquoi des hôpitaux souhaiteraient partager leurs données, tout en respectant la confidentialité de leurs utilisateurs, afin d’avoir un meilleur échantillon de la population et d’ajuster leurs découvertes.
Lorsqu'on ouvre un jeu de données, la méthode la plus courante pour enlever les données sensibles et suivre le RGPD est la pseudonymisation. Mais ce n'est pas suffisant pour garantir l'anonymat des utilisateurs[1]. Même lorsqu’on ouvre qu’une partie du jeu de données, certains participants peuvent être réidentifiés avec probabilité proche de 1. Le RGPD nous encourage à ne collecter que des données minimales afin qu’un service fonctionne. Mais, pour garantir que les décisions de nos algorithmes ne discriminent pas un échantillon de la population par rapport à un autre, il faut connaître notre population autant que possible. Il y a donc là un paradoxe.
---
[1] https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf
---
Cette Tribune s'inscrit dans le cadre du Groupe K2 "Enjeux du Big Data" composé de :
Kevin Dumoux est Co-créateur du Cercle K2, Conseil en Stratégie, Transformations digitales et M&A - Messaoud Chibane (PhD) est Directeur du MSc Finance & Big Data, NEOMA Business School, Lauréat du Trophée K2 "Finances" 2018 - Shirine Benhenda (PhD) est Experte en Biologie moléculaire, données OMICS - Sonia Dahech est Directrice CRM, Trafic et Data omnicanal chez BUT - Franck DeCloquement est Expert en intelligence stratégique, Enseignant à l'IRIS et l'IHEDN, Spécialiste Cyber - Franck Duval est Administrateur des Finances publiques, Directeur adjoint du pôle gestion fiscale, DDFiP 92 - Yara Furlan est Trader Social Media chez Publicis Media - Jean-Baptiste Harry est HPC & AI Solution Architect & pre sales EMEA chez NEC Europe - Timothé Hervé est Risk Manager à la Banque de France - Aurélie Luttrin est Président, Eokosmo - Yann Levy est Data Analyst, Expert BI - François Marchessaux est Senior Partner, Franz Partners - Conseil en Stratégie & Management - Aurélie Sale est Coach Agile chez Renault Digital - Jun Zhou est Entrepreneur, Lecturer & Consultant in Chinese Social Media
---
03/12/2022