Un nouvel outil pour améliorer le contrôle de qualité des bases de données sur les protéines

En dépit des récents efforts pour améliorer les calculs d'annotation des génomes, les bases de données publiques contiennent toujours des protéines et des gènes incomplets, anormaux et mal prédits. Ces erreurs réduisent la fiabilité de ces bases de données. Dans ce contexte, une équipe de chercheurs a mis au point un nouvel outil, «MisPred», qui représente un moyen efficace de contrôler la qualité des bases de données. L'étude s'inscrivait dans le projet BioSapiens de l'UE, financé à hauteur de 12 millions d'euros dans le cadre du domaine thématique «Sciences de la vie, génomique et biotechnologie pour la santé» du sixième programme-cadre (6e PC). Les résultats ont récemment été publiés dans la revue scientifique BMC Biology (en accès libre). Selon l'équipe de chercheurs, l'outil MisPred utilise cinq «routines» afin de repérer les entrées suspectes, anormales, incomplètes ou mal prédites, en s'appuyant sur le fait qu'une séquence est probablement incorrecte si elle entre en conflit avec les connaissances concernant les protéines et les gènes qui les codent: (1) les protéines extracellulaires ou transmembranaires doivent disposer des signaux de sécrétion appropriés; (2) une protéine avec des éléments intra et extracellulaires doit avoir un segment transmembranaire; (3) une protéine donnée ne doit pas comporter de domaines extracellulaires et nucléaires; (4) pour une famille de domaines globulaires étroitement associés, le nombre de résidus d'acides aminés doit être dans une plage relativement étroite; (5) une protéine doit être codée par des exons situés sur le même chromosome. L'équipe était conduite par le professeur László Patthy, chercheur à l'Institut d'enzymologie de l'Académie Hongroise des Sciences. «Les études récentes ont montré qu'une proportion notable des gènes d'eucaryotes est mal interprétée au niveau de la transcription», déclare le professeur Patthy. «Les routines de MisPred peuvent détecter un bon nombre de ces erreurs et pourraient faciliter leur correction. Nous pensons qu'elles pourraient notablement améliorer la qualité des données de séquences de protéines, prévues à partir des gènes.» Le professeur Patthy signalait cependant que certaines de ces protéines pourraient être dépourvues de peptides signaux de sécrétion, car elles sont soumises à un processus ne faisant pas appel à un peptide signal (leaderless protein secretion). De même, nous ne pouvons exclure la possibilité de formation de chimères transchromosomiques, qui présentent néanmoins des fonctions physiologiques normales. Cependant, l'analyse par MisPred des séquences de protéines dans la base de données Swiss-Prot n'a trouvé que peu d'exceptions de ce type, ce qui montre que les règles appliquées par MisPred sont généralement valides.» L'étude a montré que les erreurs de prévision résultent généralement de l'absence des peptides signaux et de violations de l'intégrité du domaine. L'équipe soulignait: «Il est intéressant de constater que même l'ensemble de données UniProtKB/Swiss-Prot, validé manuellement, est contaminé par des protéines anormales ou mal prédites, bien que dans une proportion largement inférieure aux entrées des bases UniProtKB/TrEMBL, EnsEMBL et GNOMON.» L'approche appliquée par MisPred donnera aux chercheurs plus de temps pour conduire davantage d'études sur les gènes mal identifiés.

Télécharger Télécharger le contenu de la page