Skip to main content
European Commission logo print header

Article Category

Entretien
Contenu archivé le 2024-04-18

Article available in the following languages:

Une nouvelle plateforme d’analyse de données atténue les problèmes de confidentialité pour les propriétaires

À l’ère du tout numérique, les entreprises s’appuient de plus en plus sur l’analyse des données pour garantir leur croissance et leur survie. Mais cela signifie-t-il nécessairement que nous devions sacrifier notre vie privée? Pas nécessairement. Le projet PAPAYA, financé par l’UE, a mis au point une nouvelle plateforme qui promet de rétablir la confiance entre les propriétaires des données et les unités de traitement des données indépendantes.

Économie numérique icon Économie numérique

Les violations de données ont rendu les consommateurs de plus en plus méfiants à l’égard de la sécurité des données personnelles sur les serveurs cloud. Avec le règlement général sur la protection des données (RGPD) désormais en place, le projet PAPAYA (PlAtform for PrivAcY preserving ​​data Analytics) vise à trouver un équilibre délicat entre la confidentialité et l’analyse de données précieuses. Sa technologie est testée dans cinq cas d’utilisation réels, allant de la détection d’arythmie cardiaque à l’analyse de l’utilisation du téléphone mobile. Melek Önen, professeur associé au Département de sécurité numérique d’EURECOM et coordinateur de PAPAYA, évoque les ambitions et les réalisations du projet à ce jour.

Quelles lacunes en matière de confidentialité des données souhaitez-vous combler avec ce projet?

Melek Önen: Le projet PAPAYA vise à résoudre les problèmes de confidentialité des données qui surviennent lorsque l’analyse des données est externalisée vers des serveurs cloud puissants, mais non fiables. L’analyse des données peut aider les parties prenantes à exploiter les données collectées pour obtenir des informations pertinentes et prendre de meilleures décisions. Par exemple, une agence de santé peut utiliser l’analyse de données pour prédire ou détecter le risque de pandémie. L’analyse de données peut également aider les entreprises marketing ou commerciales dans leur prise de décision. Mais il y a un problème fondamental. Malgré toute leur valeur pour les entités qui les collectent, les ensembles de données contiennent également des informations très sensibles sur les personnes chez qui ces données sont collectées. La confidentialité des données et la vie privée des personnes concernées sont réellement menacées. En adoptant une approche de confidentialité dès la conception, notre projet vise à concevoir et à développer une plateforme de modules de protection de la vie privée qui protège la vie privée des utilisateurs de bout en bout sans sacrifier les fonctionnalités d’analyse de données.

Comment expliquez-vous l’absence actuelle de mesures préalables visant à atteindre un tel équilibre?

La société est confrontée à des violations de données de plus en plus nombreuses causant de graves dommages. De nombreuses personnes ont perdu confiance dans les solutions de sécurité des données des organisations et sont de plus en plus préoccupées par la sécurité de leurs informations personnelles. Le règlement général européen sur la protection des données (RGPD) peut inverser cette tendance, mais cela signifie également que les entreprises recherchent désormais des pratiques de traitement des données sécurisées. Il existe, plus que jamais, un besoin d’analyses de données préservant la confidentialité qui permette aux entreprises d’exploiter des données protégées, de garantir la confidentialité de leurs clients tout en conservant la signification et l’utilité de ces données. Les techniques habituelles de protection des données (à savoir les techniques de chiffrement standard telles que AES) ne sont malheureusement pas adaptées à ce nouveau contexte, car elles empêchent les serveurs tiers de fonctionner sur les données cryptées. Les propriétaires de données auraient plutôt besoin de télécharger d’abord les données chiffrées, de les décrypter et d’exécuter des opérations sur les données en texte clair. Cela n’est pas possible lorsque le propriétaire des données ne dispose pas des ressources de calcul pour effectuer des opérations sur un volume de données aussi élevé, ou lorsque l’algorithme à exécuter appartient au serveur tiers. Une solution serait de fournir au serveur tiers la clé pour décrypter les données, mais alors la confidentialité ne pourrait plus être assurée.

Comment votre approche permet-elle de surmonter tous ces problèmes?

PAPAYA développe des technologies améliorant la confidentialité permettant une analyse de données protégées. Ces analyses vont des simples opérations statistiques aux techniques d’apprentissage automatique plus sophistiquées telles que les réseaux de neurones. Ils offrent des protections importantes aux parties prenantes dont les données sont en cours de traitement, tout en donnant une utilité aux détenteurs de données/responsables du traitement des données. Notre solution est conforme à la protection des données dès la conception requise par le RGPD. En outre, le projet développe également des outils spécifiques facilitant la conformité légale avec le RGPD et la législation relative à la confidentialité et à la protection des données pour les organisations recourant à des analyses de confidentialité. Les outils se concentrent sur les droits des personnes dont les données personnelles sont traitées – appelées «personnes concernées» dans le RGPD.

Comment fonctionne exactement votre plateforme?

Le cadre de PAPAYA s’articule autour de deux groupes principaux de composants. Tout d’abord, les composants côté plateforme exécutés sur le serveur cloud non approuvé. Ensuite, les composants côté client qui s’exécutent sur un environnement client approuvé (comme un smartphone). La plateforme regroupe des modules d’analyse préservant la confidentialité pour les opérations suivantes: classification de réseau de neurones, formation de réseau de neurones collaboratif, regroupement de trajectoires et statistiques de base. À un niveau élevé, les clients de la plateforme – à savoir les parties prenantes – envoient leurs requêtes pour effectuer les analyses demandées de manière à préserver la confidentialité et reçoivent le résultat correspondant sans divulguer aucune information sensible à caractère privé. Le cadre comprend également une boîte à outils pour les personnes concernées. Il fournit des outils polyvalents pour la protection des données dès la conception par les clients de la plateforme envers les personnes concernées dont les données personnelles sont traitées par leurs services. Par exemple, les personnes concernées peuvent recevoir plus d’informations sur le service d’analyse sous-jacent préservant la confidentialité ou sur la divulgation de leurs données.

Pouvez-vous donner des exemples concrets de cas d’utilisation?

PAPAYA définit cinq cas d’utilisation, chacun ciblant des paramètres différents. Un cas d’utilisation ciblant les applications de soins de santé (dirigé par MediaClinics Italia, une PME italienne) consiste en la détection d’arythmie cardiaque dans le respect de la vie privée. Dans ce cas d’utilisation, des données de santé sensibles sous la forme d’électrocardiogrammes (ECG) sont collectées auprès d’un patient. La plateforme PAPAYA détecte les arythmies en utilisant des réseaux de neurones, sans avoir accès à ces ECG. Un autre cas d’utilisation ciblant les opérateurs télécoms (mené par Orange, la société française de télécommunications) aide les parties prenantes à extraire des modèles de mobilité à l’aide d’algorithmes de regroupement de trajectoires, le tout sans identifier chaque trajectoire individuelle.

Selon vous, quelles sont les réalisations les plus importantes du projet à ce jour?

Le projet a développé des variantes préservant la confidentialité d’un groupe de quatre analyses, à savoir les réseaux de neurones (classification, formation collaborative), le regroupement de trajectoires, le comptage et les statistiques de base. Ces modules utilisent différents outils cryptographiques avancés tels que le chiffrement homomorphe, la confidentialité différentielle ou le chiffrement fonctionnel. En outre, diverses interfaces utilisateur (IU) ont été développées pour améliorer la transparence pour les personnes concernées et les autres parties prenantes. Il s’agit d’une extension de l’outil d’évaluation des facteurs relatifs à la vie privée (EFVP) de la CNIL, qui aide les parties prenantes de PAPAYA à évaluer l’impact des analyses de confidentialité sur les objectifs de confidentialité et de sécurité. L’outil est également beaucoup plus transparent pour les personnes concernées. Nos interfaces utilisateur expliquent le fonctionnement des analyses PAPAYA préservant la confidentialité, et notre outil de moteur de confidentialité prend en compte les préférences et les droits de confidentialité des personnes concernées.

Que vous reste-t-il à accomplir?

Le projet est maintenant dans sa phase de validation. Notre objectif est de mettre en place des prototypes démontrant les cinq cas d’utilisation, ainsi que de produire un manuel d’utilisation de la plateforme qui faciliterait son usage par les utilisateurs.

Mots‑clés

PAPAYE, analyse de données, cloud, RGPD, arythmie, télécoms

Articles connexes