Une plateforme informatique pour traiter les données génomiques
Les progrès réalisés entre le premier séquençage du génome humain et la naissance de la médecine génomique ont été possibles grâce au séquençage à haut débit. Cette technique permet un séquençage rapide de longs segments de paires de bases ADN et ARN, couvrant des génomes entiers. Cependant, pour extraire des signaux biologiques signifiants, le séquençage à haut débit exige des outils statistiques puissants. Le projet RADIANT (Rapid development and distribution of statistical tools for high-throughput sequencing data), financé par l'UE, a été lancé pour améliorer les outils d'analyse de données les plus répandus. Son objectif ultime était d'intégrer dans un seul cadre informatique des logiciels développés par des chercheurs en France, en Allemagne, en Italie, en Suisse et au Royaume-Uni. Parmi ceux-ci figure la bibliothèque Python HTSeq, qui effectue un traitement préliminaire des données de séquençage de l'ARN en vue de l'analyse de l'expression différentielle des gènes. DESeq2 fournit quant à lui des méthodes pour détecter les gènes à expression différentielle à l'aide de modèles linéaires généralisés. D'un autre côté, BitSeqVB met en œuvre une approche bayésienne pour inférer la concentration des transcriptions de l'ARN messager. Les recherches effectuées dans le cadre du projet RADIANT ont couvert tous les aspects de l'analyse des données de séquençage à haut débit, depuis le contrôle de la qualité jusqu'à la visualisation des données. Pour les séries temporelles d'expression des gènes, les chercheurs ont proposé une modélisation bayésienne hiérarchique, capable d'intégrer les données manquantes de manière systématique ou aléatoire. Le navigateur de génome proposé par RADIANT est le premier outil de visualisation développé pour les données de méthylation de l'ADN. La plupart des outils ont été intégrés à Uen Bioconductor, fournissant un cadre homogène pour l'analyse, la documentation et la diffusion des données de séquençage à haut débit. Le très grand nombre d'applications disponibles sur Bioconductor rend son accès difficile pour les utilisateurs inexpérimentés cherchant à résoudre des problèmes donnés. Ses concepteurs ont donc conçu une «vignette pour débutants», qui constitue une introduction simple mais complète à l'analyse des données de séquençage de l'ARN. En permettant d'accéder à l'intégralité du génome humain, les techniques de séquençage se sont introduites dans toutes les branches de la recherche biologique et médicale. Grâce aux nouveaux outils développés par RADIANT, l'analyse des données de séquençage à haut débit s'imposera comme un outil indispensable. Les applications envisagées peuvent transformer la recherche en génomique, en révélant des informations auparavant inaccessibles.
Mots‑clés
Séquençage de l'ARN, génomique, génome humain, outils statistiques, séquençage à haut débit, analyse des données