Comment identifier rapidement et efficacement de grandes séries de données géniques pour apporter de l’aide dans la recherche sur le coronavirus

Une équipe internationale de chercheurs étudie comment de grandes quantités de données de séquence de génomes pourraient être classées et analysées pour une utilisation en biomédecine.

Santé

Grâce à l’avancement de la technologie de séquençage, il est possible de produire d’importantes quantités de données de séquences génomiques à partir de différentes espèces. Il est essentiel d’examiner les données pangénomiques – l’ensemble complet des gènes appartenant à tous les membres d’une espèce précise – surtout dans des domaines comme la recherche sur les bactéries et les virus, l’étude des mécanismes de résistance aux médicaments et le développement de vaccins. Par exemple, pourquoi le coronavirus est-il résistant aux médicaments classiques? Les big data peuvent-ils être utiles pour une identification rapide des caractéristiques de telles nouvelles souches virales? Une équipe de chercheurs, soutenue par le projet PANGAIA financé par l’UE, s’attaque actuellement à ce défi en développant des méthodes permettant de comparer des lots gigantesques de données géniques. Comme expliqué dans communiqué de presse(s’ouvre dans une nouvelle fenêtre) par le partenaire du projet PANGAIA à l’Université de Bielefeld, les scientifiques utilisent souvent un génome de référence pour voir si le matériel génétique d’un organisme présente des variations particulières. “Ils associent plusieurs génomes de façon à exposer les caractéristiques typiques de toute une espèce. Cela permet aux chercheurs de comparer le nouveau virus influenza à un génome de référence qui regroupe les caractéristiques typiques des lignées virales dont il est issu.” Cité dans le même communiqué de presse, le P D Jens Stoye de l’Université de Bielefeld dit: “Dans ces cas, nous comparons uniquement deux génomes l’un par rapport à l’autre–les différences et les similitudes sont relativement faciles à identifier par ordinateur.” Il ajoute: “Avec la nouvelle approche, nous pouvons comparer en une seule étape un génome à des milliers d’autres génomes.” Ce procédé implique la pangénomique. “La nouvelle technologie permet une analyse intégrée et simultanée d’un grand nombre de lignées du même organisme. Ces dernières peuvent être des virus, des bactéries et quelquefois même des organismes plus grands.” Le P Stoye poursuit: “Cela permet de mettre l’accent sur les similitudes et les différences entre les membres individuels. Dans le cas de pathogènes, il est souvent possible même de comprendre et de prédire les mécanismes qui conduisent au développement de lignées particulièrement infectieuses.”

Anomalies génétiques

La nouvelle méthode peut également être utilisée pour détecter des maladies héréditaires chez l’homme ou pour déterminer des anomalies génétiques, selon le même communiqué de presse. “Au cours des prochaines années, nous souhaitons développer de nouveaux algorithmes et des structures de données avec nos partenaires de projet, ce qui rendra la génomique assistée par ordinateur plus rapide et plus conviviale,” dit le P D Alexander Schönhuth, également de l’Université de Bielefeld. L’équipe projet espère développer des algorithmes pour lesquels les ordinateurs chercheront des similitudes et des différences entre les génomes comparatifs et présenteront les résultats sous forme de graphiques de variation. Ces représentations permettent aux chercheurs “d’identifier en totalité de nouvelles mutations, comme celles qui se sont probablement produites pour le variant du coronavirus” qui ont explosé en Chine et qui “provoquent une résistance aux médicaments habituels,” comme le souligne le P Schönhuth. Le projet PANGAIA en cours (Pan-genome Graph Algorithms and Data Integration) se terminera fin décembre 2023. Il se focalisera sur les représentations graphiques de grands ensembles de données génomiques et démontrera leurs avantages par rapport aux présentations traditionnelles basées sur des séquences de données pangénomiques. “Dans ce projet, nous appliquerons ce changement de paradigmes–de la séquence aux représentations graphiques de génomes–complètement,” comme indiqué dans CORDIS(s’ouvre dans une nouvelle fenêtre). “Par conséquent, nous pouvons nous attendre à une multitude d’avantages quasiment pertinents parmi lesquels l’agencement, l’analyse, la compression, l’intégration et l’exploitation des données génomiques qui représentent les points les plus fondamentaux.” Pour plus d’informations, voir: projet PANGAIA

Mots‑clés

coronavirus

Pays

Italie

Comment identifier rapidement et efficacement de grandes séries de données géniques pour apporter de l’aide dans la recherche sur le coronavirus

Anomalies génétiques

Mots‑clés

Pays

Articles connexes

Partager cette page Partager cette page sur les réseaux sociaux

Télécharger Télécharger le contenu de la page