Abstract
3 min readLes sarcomes, tumeurs rares constituant 1 % des cancers, sont un groupe hétérogène en termes de sous-types histologiques et de prises en charge (PEC). DEEPSARC, projet lauréat du Health Data Hub (HDH), a pour objectif de fusionner les bases de données nationales (BCB Sarcomes : base clinique et base anatomopathologique) recensant les cas inclus via les centres experts du réseau NETSARC+ et le Système national des données de santé (SNDS) afin d’évaluer l'effet de traitements adjuvant et/ou néo adjuvant sur la survie globale des cas de sarcomes (2012-18). L'autorisation CNIL a été obtenue (20/11/2020). En l'absence d'identifiants communs (pas de NIR), les bases Sarcomes et du SNDS ont été chaînées avec un appariement indirect : des variables communes aux deux bases ont été sélectionnées pour former une signature, c'est-à-dire un identifiant patient espéré unique auquel il est possible d'associer une métrique permettant d’évaluer la qualité d'appariement. L'absence d'identification de la maladie par un code CIM10 univoque a nécessité l'utilisation de tableaux de correspondance définis par un groupe de cliniciens et a conduit à solliciter une extraction SNDS étendue. Ces actions ont été menées dans un espace dédié du HDH. A partir de la base chaînée, des revues des données itératives et des avis d'experts ont permis d'orienter les choix méthodologiques. Pour la période considérée, les bases sarcomes comprenaient 47 055 patients dont 33 548 distincts et 13 507 communs ; l'extraction du SNDS portait sur les données de 2009 à 2020, incluant près de 3 millions de patients ayant eu un séjour de chirurgie pour un diagnostic de cancer de 2010 à 2017 (dates d'inclusions initiales) et leurs données un an avant et trois ans après. L'appariement a été réalisé en trois étapes. La première s'est basée sur 10 variables (sexe, année de naissance, date de décès, commune de résidence, chirurgie…). La deuxième à pris en compte le diagnostic lors de la chirurgie et un fichier de correspondance entre les localisations du sarcome dans les bases sarcomes et des codes CIM10. A la dernière étape, les résultats du chaînage ont été relu par un expert. Au total, 73,1 % (n=24 539) des patients de NETSARC+ ont été appariés au SNDS. Après application des critères d'inclusion, la qualité de l'appariement était bonne (score ≥4/7) pour 50,0 % (9395/18 780) des patients. Des analyses de sensibilités prendront en compte cette qualité pour les résultats finaux. Plusieurs choix ou actions importants ont été faits : • l'utilisation préférentielle des données SNDS en cas de variables communes ; • la correction des incohérences histologiques au sein des bases sarcomes ; • l'identification des métastases, de la chimiothérapie et de la radiothérapie à partir de combinaisons de codes CIM10, GHM et des dates de PEC du SNDS ; • l'exclusion des patients pris en charge avant 2012 afin d'utiliser la cartographie de la Cnam pour calculer le score de Charlson (variable de confusion majeure), réduisant le nombre de patients analysés à 14 808 • et la planification d'analyses utilisant score de propension et variable instrumentale pour prendre en compte un potentiel biais d'indication. Les analyses des données de vie réelles présentent certains défis, pour les sarcomes spécifiquement l'identification dans le SNDS a ajouté une complexité. La diffusion des raisonnements et décisions prises par les équipes expertes facilitera la compréhension des résultats et guidera les futurs projets pour l'utilisation des données.
Discussion(0)
No comments yet. Be the first to comment.