Image principale 1
Image principale 1
© Supermelon - stock.adobe.com

Données numériques de santé : entre enjeux médicaux, technologiques et juridiques

Temps de lecture  16 minutes

Par : La Rédaction

Les données numériques en matière de santé ont connu récemment un développement exponentiel. Protection des données personnelles, exploitation de ces données par les professionnels de santé ou par des systèmes d'intelligence artificielle, développement du dossier médical partagé et de l'espace numérique de santé… les enjeux sont multiples.

En 2013, selon un rapport de l'Assemblée nationale sur le dossier médical partagé et les données de santé, 153 exaoctets de données de santé ont été produits dans le monde (1 exaoctet = 1018 octets). En 2020, 2 314 exaoctets ont été produits. Sur cette période, le volume des données de santé aurait été multiplié par dix.

Les enjeux s'articulent autour de trois axes :

  • la définition des données de santé, afin de protéger des droits spécifiques ;
  • les bases de données de santé numériques et leur utilisation par les professionnels de santé ou l'intelligence artificielle (IA), entre enjeux scientifiques et convoitises autour d'un bien non appropriable ;
  • les données de santé en France et leur mise en cohérence plus lente que dans certains pays.

Les données de santé : une définition large du règlement européen sur la protection des données personnelles

Le règlement (UE) 2016/679 sur la protection des données personnelles (RGPD), entré en application le 25 mai 2018, donne une définition élargie des données de santé. Le RGPD vise à protéger les individus lorsque leurs données sont traitées par le secteur privé et la plupart des agents du secteur public.

En France, les dispositions du RGPD sont transposées en droit interne par la loi du 20 juin 2018 relative à la protection des données personnelles, qui adapte la loi du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, dite "loi informatique et libertés".

Qu'est-ce qu'une donnée de santé ?

Selon le RGPD, les "données à caractère personnel concernant la santé" sont "l'ensemble des données se rapportant à l'état de santé d'une personne concernée qui révèlent des informations sur l'état de santé physique ou mentale passé, présent ou futur de la personne concernée".

Cette notion comprend :

  • les informations relatives à une personne physique (collectées lors de l'inscription en vue de bénéficier de soins de santé ou lors de la prestation de ces services, comme un numéro) ;
  • les informations obtenues lors du test ou de l'examen d'une partie du corps ou d'une substance corporelle ;
  • les informations concernant une maladie, un handicap, les antécédents médicaux, un traitement clinique, etc., quelle qu'en soit la source (médecin, professionnel de santé, hôpital, test de diagnostic in vitro).

La Commission nationale de l'informatique et des libertés (CNIL) répond à la question "qu'est-ce qu'une donnée de santé ?" dans le contexte de la définition donnée par le RGPD et souligne qu'elle "permet d’englober certaines données de mesure à partir desquelles il est possible de déduire une information sur l’état de santé de la personne".

Il existe trois catégories de données à caractère personnel concernant la santé :

  • les données de santé par nature (maladies, antécédents médicaux, prestations de soins, handicaps…) ;
  • les catégories de données brutes devenues des données de santé par croisement avec d'autres données, permettant de tirer une conclusion sur l'état de santé d'une personne (par exemple croisement de la mesure du poids et des apports caloriques) ;
  • les catégories de données devenues données de santé par destination, c'est-à-dire l'utilisation qui en est faite sur le plan médical.

Un régime juridique particulier

La protection des droits des patients et la sensibilité des données de santé justifient un régime juridique particulier, mis en place par le RGPD, entre autres pour des problématiques de vie privée. Il est interdit de traiter des données à caractère personnel concernant la santé, sauf si :

  • la personne concernée donne son consentement explicite ;
  • le traitement est nécessaire aux fins de l'exécution des obligations et de l'exercice des droits propres au responsable du traitement ou à la personne concernée (droit du travail, sécurité sociale, protection sociale) ;
  • le traitement est nécessaire pour des motifs d'intérêt public (santé publique).

L'article 65 de la loi informatique et libertés énumère les traitements qui échappent à ce contrôle, mis en œuvre par l'autorité publique dans un objectif de suivi des politiques de santé publique.

Ces traitements présentent une finalité d'intérêt public ou limitée à la recherche, l'étude ou l'évaluation dans le domaine de la santé. La CNIL établit des référentiels et des règlements types de traitement des données ou attribue des autorisations de traitement.

Une fois la qualification de données de santé retenue, le régime juridique s'applique, sous différentes législations. La CNIL en donne une liste non exhaustive, une analyse au cas par cas étant nécessaire :

  • loi informatique et libertés ;
  • code de la santé publique, dispositions sur :
    • le secret ;
    • l'hébergement des données de santé ;
    • les référentiels de sécurité et l'interopérabilité des données de santé ;
    • la mise à disposition des données de santé ;
    • l'interdiction de procéder à une cession ou à une exploitation des données de santé…

La société Doctissimo condamnée

Le 11 mai 2023, la CNIL a prononcé une sanction de 380 000 euros à l'encontre du site web doctissimo.fr pour avoir manqué à des obligations du RGPD, entre autres l'obligation de recueillir le consentement des personnes à la collecte et à l'utilisation de leurs données de santé.

La complexité de la définition d'une donnée de santé

Le sens large accordé à la notion de données de santé par le RGPD et leur sensibilité rendent parfois complexe leur qualification.

Les données dont on ne peut déduire, à moins d'un recoupement avec d'autres données, aucune information sur la santé physique ou mentale d'une personne ne sont pas considérées comme des données de santé.

La CNIL fournit quelques exemples répondant à la définition de données de santé :

  • l'information sur le handicap ou un taux d'invalidité révélant un handicap, au sens de l'article L114 du code de l'action sociale et des familles ;
  • l'information sur la prise en charge dans une structure de soins dès lors qu'elle donne une indication sur l'état de santé ;
  • la nomenclature de la classification commune des actes médicaux (CCAM), si elle révèle une information sur l'état de santé ou une prise en charge liée à une pathologie ;
  • l'inaptitude à l'exercice d'une activité sportive

Ne sont pas données de santé :

  • le numéro d'inscription au répertoire national d'identification des personnes physiques (NIR), même s'il est utilisé comme identifiant national de santé ;
  • l'aptitude à l'exercice d'une activité sportive, sauf en cas de recoupement avec d'autres informations comme les circonstances de délivrance du certificat ;
  • les données recueillies en dehors d'un contexte médical par des outils de mesure de soi (montres, bracelets connectés, applications mobiles)…

Les enjeux des bases de données de santé numériques : intelligence artificielle et progrès médical

Le cadre juridique particulier des données de santé est d'autant plus important qu'elles intéressent plusieurs secteurs d'activité. Selon un rapport parlementaire sur l'IA, "le développement de l'IA est appelé à transformer en profondeur les pratiques des professionnels de santé : aide au diagnostic, appui à la construction d'une thérapie, suivi évolutif du patient…"

Ces nouvelles pratiques sont fondées sur l'exploitation des bases de données de santé. Selon le rapport précité de l'Assemblée nationale, "la mise en place de diagnostics fondés sur l’intelligence artificielle va nécessiter des banques de données permettant d’entraîner ces algorithmes".

Un champ d'investigation de la médecine et des sciences

L'exploitation des données de santé doit permettre d'améliorer l'état de santé des populations et des individus. Selon un rapport de l'Organisation de coopération et de développement économiques (OCDE), l'exploitation des bases de données a fortement progressé ces dernières années du fait des avancées réalisées dans :

  • le stockage des données, plus efficace et moins coûteux ;
  • la capacité de calcul, qui a notamment permis des avancées dans le traitement automatique des langues et l'analyse sémantique, particulièrement utiles dans l'exploitation des données cliniques ;
  • l'apprentissage automatique, qui permet aux intelligences artificielles d'apprendre à partir de données, sans supervision ni instruction humaines.

Le rapport de l'OCDE souligne que ces progrès ont permis :

  1. d'améliorer les soins aux patients (évaluation et amélioration de thérapies, de protocoles de traitement…) ;
  2. de gérer le système de santé (performance et transparence) ;
  3. d'améliorer la veille sanitaire (analyse de volumes de données importants) ;
  4. de renforcer la recherche médicale (recherches détaillées sur une plus grande échelle, évaluation des interventions cliniques…).

Selon le site du Centre national de la recherche scientifique (CNRS), les données de santé ouvrent des perspectives de recherche :

  • développer des médicaments ;
  • mesurer les inégalités sociales de santé ;
  • minimiser l'errance diagnostique des maladies rares

Les enjeux de l'intelligence artificielle

L'intelligence artificielle "désigne la possibilité pour une machine de reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité", selon la définition du Parlement européen.

L'enjeu de l'usage de l'IA est double en médecine, selon le rapport de l'Assemblée nationale :

  • passer d'une médecine curative à une médecine préventive de plus en plus personnalisée, à partir de l'analyse des historiques de vie et de soins ;
  • aider au diagnostic ou traiter des patients, l'IA faisant "beaucoup mieux que des médecins, y compris spécialistes, pour analyser les images de la peau, de l’œil, des images radio", selon le directeur du Centre de recherche en épidémiologie et statistiques (Cress).

L'intelligence artificielle ouvre la voie d'une médecine où le suivi en temps réel du patient et des traces qu'il produit (description des symptômes, interactions avec l'environnement…) est essentiel pour entraîner les techniques d'IA médicales et améliorer leur qualité et leur fiabilité, selon le rapport parlementaire sur l'IA.

L'Agence nationale de la performance sanitaire et médico-sociale (ANAP) énumère sur une plateforme dédiée à l'IA en santé les solutions proposées par l'intelligence artificielle.

Selon l'avis 141 du Comité consultatif national d'éthique pour les sciences de la vie et de la santé (CCNE), les systèmes d'intelligence artificielle appliqués au diagnostic médical (SIADM) ont une précision de détection proche de 95%. Ces SIADM reposent sur des techniques d'apprentissage profond supervisé. Ces aides sont précieuses en oncologie, en cardiologie, en dermatologie, en histopathologie… Des microlésions peuvent en effet échapper à l'œil humain.

En 2017, la Food and Drug Administration (FDA) a validé et autorisé aux États-Unis la mise sur le marché d'un SIADM permettant la détection de la rétinopathie diabétique à partir d'images de rétine.

Les données de santé au centre de convoitises

La place croissante de l'IA dans la gestion et l'exploitation des données de santé a pour première conséquence, selon le rapport de l'Assemblée nationale, d'attiser les convoitises d'une multitude d'acteurs économiques :

  • petites sociétés numériques proposant des applications qui captent des données moyennant la fourniture de services pour mieux dormir, gérer son poids, suivre son cycle d'ovulation, etc. ;
  • communautés privées de patients permettant à des entreprises de vendre des enquêtes faites auprès de volontaires, à partir de résultats anonymes et agrégés ;
  • intermédiaires appelés clinical research organisations, travaillant pour des clients multiples (laboratoires, fabricants) afin de collecter des données fiables (par exemple, la société IQVIA enrichit chaque semaine un entrepôt de données des informations issues des tickets de caisse de 40% des pharmacies en France) ;
  • Verily, filiale de Google, ayant noué des partenariats avec des laboratoires pharmaceutiques, qui leur donnent accès à des plateformes de données de santé de sources multiples.

La finalité économique est simple : entraîner des logiciels d'intelligence artificielle avec un maximum d'informations sur des citoyens, malades comme bien portants, afin de proposer avant les concurrents des services et des produits inédits.

Face à ces enjeux et ces problématiques, un rapport de l'office parlementaire d'évaluation des choix scientifiques et technologiques souligne que "le risque majeur serait de ne pas s'ouvrir à l'IA et au pilotage par les données".

Les enjeux financiers autour de la collecte des données de santé

Un parlementaire rapporte dans une question écrite au gouvernement que "la plateforme Doctolib, qui se trouve en situation monopolistique de fait, suscite les inquiétudes des utilisateurs en raison d'un changement de politique de confidentialité et des conditions d'utilisation. Depuis le 31 août 2022, l'entreprise peut ainsi collecter un certain nombre de données personnelles concernant l'âge, le sexe, la profession de l'utilisateur mais également la durée des téléconsultations ou encore leur motif".

Dans sa réponse, le gouvernement rappelle que "lors du Covid-19 plusieurs plateformes du marché ont été financées par l'État pour équiper les centres de vaccination" et que "le corpus de règles à respecter par Doctolib, ainsi que le rôle central de la CNIL sur ces questions de protection des données à caractère personnel, sont de nature à apaiser les craintes".

Les données de santé en France : passer d'une logique de soins à une logique d'anticipation des besoins en santé

En dépit d'un système d'assurance maladie centralisé, la mise en cohérence du système de santé a été plus lente en France que dans d'autres pays ayant fait plus tôt le choix politique de la généralisation des outils numériques, selon le rapport précité.

Un système de soins qui s'est informatisé de façon indépendante

Données médico-administratives et données de santé ne sont pas traitées de la même manière en France.

Les registres de la Caisse nationale d'assurance maladie (CNAM) ou les inscriptions hospitalières, données médico-administratives, sont rassemblées dans un fichier unique. Les données de soins sont dispersées sous de multiples formats informatiques dans les différents lieux où elles ont été produites.

Les pouvoirs publics français ont laissé le système de soins s'informatiser de façon indépendante au début des années 2000, souligne le rapport de l'Assemblée nationale. Dans le cadre de la création et de l'exploitation d'entrepôts de données, le partage de la valeur créée et de la propriété intellectuelle lors de la mise à disposition des données pose des difficultés.

Certains centres hospitaliers universitaires ou de recherche estiment que les sociétés privées désireuses d'accéder à leurs données doivent contractualiser et accepter un partage de la valeur créée.

Le développement en France de start-up dans le domaine de la médecine prédictive a été ralenti par ces considérations. Le rapport de l'Assemblée nationale pose ainsi la problématique :

  • le travail des producteurs de données de santé doit être valorisé et respecté ;
  • des tiers doivent pouvoir utiliser les données de santé pour leurs recherches.

Le dossier médical partagé et l'espace numérique de santé

Entre 2004 et 2012, le législateur décide la généralisation du dossier médical personnel (DMP), rappelle le rapport de l'Assemblée nationale. La prise en charge médicale devait être améliorée par un partage de l'information médicale, en associant médecin et patient grâce à un outil moderne.

Si l'élaboration du DMP s'est faite autour des questions de confidentialité et de technicité, patients et professionnels de santé, chargés de l'utiliser, n'ont pas été associés à cette démarche.

Un rapport de la Cour des comptes de 2013 sur le coût du dossier médical personnel depuis sa mise en place estime le coût total du DMP entre 2004 et fin 2011 à 210 millions d'euros, dont le quart a été dépensé en expérimentations vite abandonnées. En 2016, le dossier médical personnel devient le dossier médical partagé.

Le DMP contient les informations suivantes :

  • les données d'identification du titulaire du dossier ;
  • l'historique des soins sur les 24 derniers mois, automatiquement alimenté par la CNAM ;
  • les antécédents médicaux ;
  • les résultats d'examens médicaux ;
  • les comptes rendus d'hospitalisation ;
  • les directives anticipées de fin de vie ;
  • les coordonnées :
    • des proches à prévenir en cas d'urgence ;
    • de la personne de confiance ;
    • du médecin traitant ;
    • des professionnels de santé autorisés à accéder au dossier.

Afin de passer de l'accumulation de documents du DMP originel à une base personnelle structurée, ouverte et sécurisée comportant des données de santé, le DMP a été intégré en 2022 à l'espace numérique de santé (ou "Mon espace santé"). Cette plateforme regroupe :

  • une messagerie sécurisée ;
  • le DMP ;
  • un agenda e-santé ;
  • un catalogue ou magasin d'applications regroupant des services et outils numériques proposés par des acteurs publics ou privés dans le domaine de la santé et du bien-être ;
  • des profils rattachés (enfants).

Le système national des données de santé et Health Data Hub

Le système national des données de santé (SNDS), créé en 2016, vise à ouvrir l'accès aux données de santé collectées par des organismes publics afin de tirer profit de leur potentialités.

Toute personne ou structure, publique ou privée, à but lucratif ou non lucratif, peut accéder aux données du SNDS sur autorisation de la CNIL, en vue de réaliser une étude, une recherche ou une évaluation présentant un intérêt public.

Le SNDS est un enjeu sanitaire majeur, qui regroupe les bases de données :

  • du système national d'information inter-régimes de l'assurance maladie, soit toutes les données relatives aux dépenses de l'assurance maladie ;
  • du programme de médicalisation des systèmes d'information (PMSI) avec les données d'analyse de l'activité des établissements de santé ;
  • du Centre d'épidémiologie sur les causes médicales de décès, contenant les données relatives aux causes de décès.

La mise en place de la plateforme des données de santé, ou Health Data Hub, en 2019 élargit le SNDS aux :

  • données médico-sociales liées au handicap, fournies par les maisons départementales des personnes handicapées ;
  • l'ensemble des données de santé dont le recueil est directement ou indirectement financé par des fonds publics.