Skip to main content
European Commission logo print header

cOmpRession of Genomic dAta to facilitate precision MedIcine

Article Category

Article available in the following languages:

Une nouvelle technique aide à dompter le déluge de données génomiques

La technologie permet désormais de séquencer l’ensemble du génome humain, rapprochant ainsi la possibilité d’une médecine personnalisée. Une jeune entreprise française a testé son algorithme pour une compression extrême des données qui pourrait faciliter le stockage et le transfert des données.

Santé icon Santé

Le séquençage à haut débit, une technique qui peut exécuter en parallèle des millions de processus de séquençage, permet de séquencer l’ensemble du génome humain en environ une journée. Cette technologie a non seulement réduit le coût du séquençage, mais elle a également rapproché la possibilité d’une médecine personnalisée. Être en mesure d’observer le profil moléculaire et génétique unique d’une personne pourrait aider les chercheurs à prédire leur probabilité de développer une maladie donnée. Cela pourrait également aider les médecins à choisir le meilleur traitement lorsqu’une maladie se développe. Mais le séquençage du génome produit une énorme quantité de données. «Séquencer l’intégralité du génome d’un patient, c’est 3 milliards de paires de bases. Si vous voulez séquencer une molécule pour trouver des variantes, vous devez le faire plusieurs fois et finir par obtenir plus de 30 fois cette quantité», explique Jennifer del Giudice, PDG de Enancio et coordinatrice du projet ORIGAMI financé par l’UE.

Comment stocker les données

«La grande question est donc: comment stocker et transférer ces données personnelles essentielles? Il pourrait être nécessaire de les conserver pendant 10 ou 15 ans. C’est une excellente occasion de traiter la maladie d’une manière différente, mais comment gérer ces informations?» Enancio a développé un algorithme appelé Lena, basé sur une idée de Guillaume Rizk, le directeur technique de l’entreprise, et conçu pour servir le secteur des données génomiques qui permet une forte compression sans perte de données. Lena démontre un taux de compression élevé, compresse et extrait les données rapidement et sans perte de données et nécessite moins de ressources informatiques pour fonctionner que les autres solutions du marché. Grâce à ORIGAMI, l’équipe d’Enancio a testé les performances de Lena pour ces mesures sur la dernière version de la plateforme Illumina, le fournisseur le plus couramment utilisé pour le séquençage à haut débit dans le monde. Les résultats ont montré que Lena peut réduire la taille des données d’un facteur de cinq par rapport au logiciel de compression générique actuellement utilisé. Cela permet de réaliser des économies substantielles en termes de temps de transfert de données et de coût de stockage des données.

Cinq fois plus petit

«Les personnes qui appliquent déjà des techniques de compression ramèneront un fichier de 500 Go à 100 Go. Avec Lena, vous pouvez aller cinq fois plus loin, donc jusqu’à 20 Go, mais vous pouvez également le faire trois fois plus vite qu’avec les techniques de compression simples», ajoute Jennifer del Giudice. L’étude de marché d’ORIGAMI a permis à Enancio de regrouper les clients potentiels en segments et d’explorer en quoi leurs besoins de compression de données peuvent différer. La capacité à intégrer la compression dans les processus existants de manière transparente et sans interrompre le flux de travail était un besoin qui se démarquait. La demande de séquençage augmente. Selon une étude parue dans «PLOS Biology», les données génomiques ont augmenté à un rythme étonnant, doublant une fois tous les sept mois de 2005 à 2015, et ce taux de croissance devrait s’accélérer. Enancio a constaté que de nombreux utilisateurs de données n’avaient pas encore atteint le point de basculement où les flux de données deviennent ingérables. «Le volume de données ne pose pas encore de problème à tout le monde, mais cela arrivera bientôt», observe Jennifer del Giudice.

Mots‑clés

ORIGAMI, compression des données, compression, données génomiques, génome humain, séquençage, séquençage à haut débit, médecine personnalisée

Découvrir d’autres articles du même domaine d’application