Des algorithmes d’apprentissage automatique associent tumeurs et traitements

En combinant des données provenant de l’Union européenne et des États-Unis, le projet PredAlgoBC a identifié de nouveaux biomarqueurs de tumeurs de cancer du sein. Ceux-ci pourraient à terme être utilisés pour identifier de nouveaux traitements potentiels personnalisés.

Économie numérique

Santé

Les chercheurs travaillant sur le cancer et les oncologues sont de plus en plus favorables au remplacement des traitements standards par des traitements spécifiques aux patients, qui tiennent compte de l’hétérogénéité de la pathologie. Dans le cas du cancer du sein, le fait que les cliniciens ne disposent pas de suffisamment d’informations sur les caractéristiques tumorales spécifiques des patientes entraîne parfois des rechutes sous forme de cancer métastatique. Alors que les traitements de première ligne du cancer du sein permettent de soigner avec succès environ 90 % des patientes, ce taux de survie tombe à 27 % pour les cancers métastatiques. Pour résoudre ce problème, les experts ont constitué d’énormes bases de données associant des caractéristiques tumorales spécifiques (biomarqueurs potentiels) à des réponses thérapeutiques spécifiques chez les patientes. Mais cela n’en est qu’au tout début et pour l’instant, seules quelques signatures de biomarqueurs ont franchi le stade de la pratique clinique. «C’est ce que nous appelons le “Fléau de la dimension”», déclare Agnès Basseville, chercheuse à l’Institut de Cancérologie de l’Ouest (ICO), en France et coordinatrice du projet PredAlgoBC (Machine learning prediction for breast cancer therapy). Ces recherches ont été entreprises avec le soutien du programme Actions Marie Skłodowska-Curie. «Actuellement, nous avons trop de caractéristiques mesurées pour trop peu de patientes, et les algorithmes d’apprentissage automatique que nous utilisons pour analyser les données de biomarqueurs ne sont pas très performants dans un tel contexte.» Le projet PredAlgoBC a pour objectif de combler cette lacune en associant différentes approches mathématiques à des analyses biologiques minutieuses. Grâce à ce travail, Agnès Basseville espère faire en sorte que l’information donnée par l’algorithme soit utilisable en clinique. «Nous avons élaboré le projet principalement à partir de deux banques de données publiques: GEO (banque américaine) et ENA (banque européenne). Nous avons pu collecter des données provenant de plus de quatre-mille patientes atteintes d’un cancer du sein ainsi que les données de suivi correspondantes. En combinant des séries de données, nous avons obtenu une puissance statistique suffisante pour disposer d’un aperçu exhaustif de la complexité tumorale, toutefois, certaines données que nous souhaitions collecter, notamment le séquençage de l’ARN, ne sont disponibles que sur demande et après un délai d’évaluation de cette demande de six mois. Du fait de ces contraintes de temps, nous avons décidé de ne pas y recourir.»

Avancées en hormonothérapie

L’ensemble des données compilées a été divisé en deux parties. La première a été utilisée pour apprendre à l’algorithme comment mieux prédire un résultat de traitement à la suite de quoi, la deuxième partie a été employée pour tester la performance des prédictions du modèle utilisé pour ce projet. «De cette façon, nous pouvons comparer des prédictions de modèles avec la réponse connue et nous pouvons déterminer si nos modèles sont vraiment performants ou non», explique Agnès Basseville. Pour chaque modèle, les variables ont été classées en fonction de leur importance dans la prédiction totale. Les variables les mieux classées sont celles qui ont pu être testées comme biomarqueurs potentiels. Bien que les prédictions ne soient pas encore suffisamment fiables pour être appliquées en clinique, le classement des variables a permis à l’équipe de recherche d’identifier des acteurs impliqués dans le développement neuronal comme étant des composants tumoraux essentiels concordant avec un taux de réponse faible à l’hormonothérapie. Cela représente une avancée importante puisqu’un tel lien n’avait jamais été officiellement mis en évidence auparavant. Un autre résultat obtenu dans ce projet est la mise en œuvre d’un algorithme d’apprentissage complexe permettant de créer des groupes virtuels de patientes. Ils sont particulièrement pratiques puisqu’ils permettent de partager des données concernant des patientes sans dévoiler pour autant d’information sur des sujets réels. Enfin, les biomarqueurs récemment découverts dans le cadre du projet seront bientôt présentés dans un article revu par des pairs. Agnès Basseville et son équipe assureront le suivi des nouveaux ensembles de données compilés qui les aideront à valider plus avant ces biomarqueurs. «La prochaine étape consistera à définir la meilleure façon d’évaluer ces composants en clinique, en utilisant les outils de l’ICO pour exploiter le test de façon routinière avec des analyses telles que la PCR ou l’immuno-histochimie. Une fois que nous aurons choisi le meilleur test clinique, nous devrons effectuer une analyse rétrospective sur les patientes de l’ICO pour valider nos nouveaux marqueurs et confirmer leur utilité pour décider qui doit recevoir une hormonothérapie», note Agnès Basseville. Ce processus, qui sera accompagné de recherches sur la meilleure façon d’exploiter les nouveaux biomarqueurs comme nouvelle cible thérapeutique, devrait prendre plusieurs années.