Utilisation de données en libre accès pour ...
Document type :
Communication dans un congrès avec actes
Permalink :
Title :
Utilisation de données en libre accès pour caractériser le lien entre insuffisance rénale chronique terminale et environnement
Author(s) :
Paumelle, Martin [Auteur]
Laboratoire de Génie Civil et Géo-Environnement (LGCgE) - ULR 4515 [LGCgE]
Occelli, Florent [Auteur]
Laboratoire de Génie Civil et Géo-Environnement (LGCgE) - ULR 4515 [LGCgE]
Université de Lille
Institut Lillois d'Ingénierie de la Santé [ILIS]
Lanier, Caroline [Auteur]
Laboratoire de Génie Civil et Géo-Environnement (LGCgE) - ULR 4515 [LGCgE]
Cuny, Damien [Auteur]
Deram, Annabelle [Auteur]
Laboratoire de Génie Civil et Géo-Environnement (LGCgE) - ULR 4515 [LGCgE]
Occelli, Florent [Auteur]

Laboratoire de Génie Civil et Géo-Environnement (LGCgE) - ULR 4515 [LGCgE]
Université de Lille
Institut Lillois d'Ingénierie de la Santé [ILIS]
Lanier, Caroline [Auteur]

Laboratoire de Génie Civil et Géo-Environnement (LGCgE) - ULR 4515 [LGCgE]
Cuny, Damien [Auteur]

Deram, Annabelle [Auteur]

Conference title :
Utilisation de données en libre accès pour caractériser le lien entre insuffisance rénale chronique terminale et environnement
Conference organizers(s) :
Collège international des sciences territoriales (CIST)
City :
Paris
Country :
France
Start date of the conference :
2021-12-02
HAL domain(s) :
Sciences du Vivant [q-bio]/Santé publique et épidémiologie
French abstract :
Certaines pathologies chroniques présentent une étiologie multifactorielle encore en partie indéterminée pour laquelle un lien avec l’environnement est suspecté. C’est le cas de l’insuffisance rénale chronique terminale ...
Show more >Certaines pathologies chroniques présentent une étiologie multifactorielle encore en partie indéterminée pour laquelle un lien avec l’environnement est suspecté. C’est le cas de l’insuffisance rénale chronique terminale (IRCT) pour laquelle un registre de santé (Néphronor) est tenu à jour depuis 2005 dans la région Hauts-de-France. Ces données recueillies par les professionnels de santé ont permis de calculer l’incidence de l’IRCT dans chaque commune et ainsi d’étudier son hétérogénéité dans l’espace. Grâce à des approches épidémiologiques géographiques, des clusters de sur-incidence et de sous-incidence ont été détectés.L’objectif de ces travaux est de contribuer à identifier de nouvelles pistes étiologiques en lien avec l’environnement. La démarche générale consiste à mettre en lien les données de santé avec des données environnementales disponibles en libre accès. Après avoir défini les limites du sujet et les critères d’inclusion de nouvelles variables, une base de données environnementale a été construite. Un état des lieux a permis de retenir des données en open data couvrant des thématiques aussi diverses que l’occupation des sols, la pollution des milieux, la défaveur sociale, l’accès aux soins, etc.Pour exploiter cette base de données et formuler des hypothèses sur l’étiologie de l’IRCT, deux méthodes de caractérisation de l’environnement ont été mises en œuvre. Une première consiste à utiliser des indices spatiaux composites : des indices de vulnérabilité et de résilience ont permis de quantifier le cumul d’effets délétères ou d’effets bénéfiques de l’environnement sur la santé, afin de tester le poids global de l’environnement sur la répartition spatiale d’incidence de l’IRCT. La seconde approche est une méthode de partitionnement du territoire qui permet de construire une typologie des communes en regroupant celles qui présentent un profil environnemental similaire. La méthode repose sur deux étapes successives : une analyse en composantes principales suivie d’une classification ascendante hiérarchique, afin de déterminer si certains profils environnementaux sont surreprésentés ou sous-représentés au sein des clusters.Dans ce contexte de recherche, l’avantage indéniable de l’open data est la possibilité de générer des hypothèses étiologiques à moindre coût. Avant d’envisager des études épidémiologiques individuelles beaucoup plus coûteuses, il permet de tester ces hypothèses à l’échelle du territoire grâce à une approche géographique et d’identifier des pistes qui pourront ensuite être mises à l’épreuve à l’échelle individuelle. Cependant son utilisation présente certaines limites dont une première assez évidente : la dépendance du travail de recherche vis-à-vis des données disponibles, qui doivent être fiables, pertinentes, exhaustives et disponibles à l’échelle considérée. D’autre part, il est crucial de garder un esprit critique sur la qualité des données utilisées et sur les résultats qui en découlent. Par exemple, pour étudier la contamination des milieux, il est assez rare de disposer de données directes mesurées dans l’environnement. Cela impose d’utiliser des proxys, c’est-à-dire d’évaluer indirectement le phénomène en considérant par exemple les sources d’émissions (avec toutes les limites que cela comporte). Un autre point à garder à l’esprit concerne la temporalité des données. Les clusters IRCT ont par exemple été détectés sur la période 2005-2018. Or il est généralement compliqué de remonter aussi loin dans le temps avec l’open data, sachant qu’idéalement il faudrait disposer de données encore plus anciennes pour prendre en compte le temps de latence potentiel entre une exposition à un environnement dégradé et le déclenchement d’une pathologie.Show less >
Show more >Certaines pathologies chroniques présentent une étiologie multifactorielle encore en partie indéterminée pour laquelle un lien avec l’environnement est suspecté. C’est le cas de l’insuffisance rénale chronique terminale (IRCT) pour laquelle un registre de santé (Néphronor) est tenu à jour depuis 2005 dans la région Hauts-de-France. Ces données recueillies par les professionnels de santé ont permis de calculer l’incidence de l’IRCT dans chaque commune et ainsi d’étudier son hétérogénéité dans l’espace. Grâce à des approches épidémiologiques géographiques, des clusters de sur-incidence et de sous-incidence ont été détectés.L’objectif de ces travaux est de contribuer à identifier de nouvelles pistes étiologiques en lien avec l’environnement. La démarche générale consiste à mettre en lien les données de santé avec des données environnementales disponibles en libre accès. Après avoir défini les limites du sujet et les critères d’inclusion de nouvelles variables, une base de données environnementale a été construite. Un état des lieux a permis de retenir des données en open data couvrant des thématiques aussi diverses que l’occupation des sols, la pollution des milieux, la défaveur sociale, l’accès aux soins, etc.Pour exploiter cette base de données et formuler des hypothèses sur l’étiologie de l’IRCT, deux méthodes de caractérisation de l’environnement ont été mises en œuvre. Une première consiste à utiliser des indices spatiaux composites : des indices de vulnérabilité et de résilience ont permis de quantifier le cumul d’effets délétères ou d’effets bénéfiques de l’environnement sur la santé, afin de tester le poids global de l’environnement sur la répartition spatiale d’incidence de l’IRCT. La seconde approche est une méthode de partitionnement du territoire qui permet de construire une typologie des communes en regroupant celles qui présentent un profil environnemental similaire. La méthode repose sur deux étapes successives : une analyse en composantes principales suivie d’une classification ascendante hiérarchique, afin de déterminer si certains profils environnementaux sont surreprésentés ou sous-représentés au sein des clusters.Dans ce contexte de recherche, l’avantage indéniable de l’open data est la possibilité de générer des hypothèses étiologiques à moindre coût. Avant d’envisager des études épidémiologiques individuelles beaucoup plus coûteuses, il permet de tester ces hypothèses à l’échelle du territoire grâce à une approche géographique et d’identifier des pistes qui pourront ensuite être mises à l’épreuve à l’échelle individuelle. Cependant son utilisation présente certaines limites dont une première assez évidente : la dépendance du travail de recherche vis-à-vis des données disponibles, qui doivent être fiables, pertinentes, exhaustives et disponibles à l’échelle considérée. D’autre part, il est crucial de garder un esprit critique sur la qualité des données utilisées et sur les résultats qui en découlent. Par exemple, pour étudier la contamination des milieux, il est assez rare de disposer de données directes mesurées dans l’environnement. Cela impose d’utiliser des proxys, c’est-à-dire d’évaluer indirectement le phénomène en considérant par exemple les sources d’émissions (avec toutes les limites que cela comporte). Un autre point à garder à l’esprit concerne la temporalité des données. Les clusters IRCT ont par exemple été détectés sur la période 2005-2018. Or il est généralement compliqué de remonter aussi loin dans le temps avec l’open data, sachant qu’idéalement il faudrait disposer de données encore plus anciennes pour prendre en compte le temps de latence potentiel entre une exposition à un environnement dégradé et le déclenchement d’une pathologie.Show less >
Language :
Français
Peer reviewed article :
Oui
Audience :
Internationale
Popular science :
Non
ANR Project :
Source :
Submission date :
2025-01-24T05:57:59Z