Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

FP7

PROMOS Résultat en bref

Project ID: 327791
Financé au titre de: FP7-PEOPLE
Pays: Royaume-Uni

Des systèmes souples et rapides pour répondre aux requêtes

Les progrès de la biotechnologie, et particulièrement des techniques génomiques, ont produit une grande quantité de données de séquences. La recherche de données de séquences pertinentes dans des bases de données aussi volumineuses nécessite un modèle raisonné et formalisé, un problème que des chercheurs financés par l'UE ont réussi à résoudre.
Des systèmes souples et rapides pour répondre aux requêtes
Pour récupérer des données, les scientifiques utilisent généralement des recherches par similitude de séquence. Cependant, les bases de données publiques comme GenBank et UniProt/SwissProt contiennent plusieurs centaines de milliers de séquences, et les techniques bioinformatiques existantes ne permettent pas d'assurer une bonne extraction des données.

L'équipe de PROMOS (Probabilistic models in pseudo-Euclidean spaces) s'est attaquée à cette lacune des approches bioinformatiques. Son objectif était de concevoir des algorithmes fournissant rapidement des données de séquence précises à partir de grandes bases de données.

Pour commencer, les chercheurs ont utilisé des résultats de similitude non métriques et génériques pour dériver et mettre en œuvre des modèles relationnels probabilistes spécifiques aux données. Ils ont développé avec succès un cadre probabiliste pour des méthodes relationnelles dans des espaces pseudo-euclidiens.

Pour améliorer l'apprentissage du modèle et permettre une extraction rapide des données, ils ont développé des schémas d'approximation pour les données relationnelles ainsi qu'un modèle hiérarchique et un schéma d'extraction. Cette approche spécifique au domaine est efficace car elle convertit, à coûts linéaires, des matrices de dissimilarité à grande échelle en matrices noyau semi-définies positives approximées.

La technologie de PROMOS a été testée sur plusieurs bases de données volumineuses de protéines et a démontré des performances d'exécution supérieures à celles des systèmes de recherche classiques, avec une très bonne précision du modèle. Ces méthodes ont été exposées dans de nombreuses publications très cotées, et plusieurs autres articles sont en préparation.

Les activités et résultats du projet devraient considérablement accélérer la recherche et le développement dans les secteurs de la biotechnologie et de la pharmacie.

Informations connexes

Mots-clés

Données de séquence, bioinformatique, PROMOS, modèles probabilistes, espaces pseudo-euclidiens
Numéro d'enregistrement: 191008 / Dernière mise à jour le: 2017-02-07