Servicio de Información Comunitario sobre Investigación y Desarrollo - CORDIS

Sistemas de respuesta a consultas rápidos y flexibles

Los avances en biotecnología, especialmente en las técnicas genómicas, han generado cantidades ingentes de datos de secuencias. Recuperar datos de secuencias relevantes de bases de datos tan enormes requiere un modelo formal con principios, aspecto que un grupo de investigadores financiado por la Unión Europea ha resuelto con éxito.
Sistemas de respuesta a consultas rápidos y flexibles
Por lo general, los científicos utilizan búsquedas de similitud de secuencias en bases de datos para recuperar datos. Las bases de datos públicas como GenBank y UniProt/SwissProt contienen varios cientos de miles de secuencias, y las técnicas existentes de bioinformática no alcanzan una buena calidad de recuperación de datos.

El equipo de PROMOS (Probabilistic models in pseudo-Euclidean spaces) abordó esta carencia en los métodos de la bioinformática. Su objetivo fue diseñar algoritmos que proporcionen rápidamente datos precisos de secuencias procedentes de bases de datos a gran escala.

Para empezar, los investigadores utilizaron similitudes de puntaje no métrico genéricas con el fin de derivar e implementar modelos relacionales probabilísticos de datos específicos. Desarrollaron con éxito un marco de trabajo probabilístico para métodos relacionales en espacios pseudoeuclídeos.

Para mejorar el aprendizaje del modelo y facilitar una recuperación rápida de los datos, desarrollaron esquemas de aproximación para datos relacionales, así como un modelo jerárquico y un esquema de recuperación. Este enfoque específico del dominio es eficaz porque convierte matrices de disimilitud a gran escala en matrices de núcleo semidefinido positivas con costes lineales.

La tecnología de PROMOS se probó sobre varias bases de datos de proteínas a gran escala y se observó un rendimiento en tiempo de ejecución mejor que los sistemas clásicos de recuperación con una precisión de modelo competitiva. Los métodos se han publicado en numerosas publicaciones de alta calidad y hay varias publicaciones más en preparación.

Las actividades del proyecto y sus resultados deberían acelerar de forma notable la investigación y el desarrollo en los sectores farmacéutico y biotecnológico.

Información relacionada

Palabras clave

Datos de secuencias, bioinformática, PROMOS, modelos probabilísticos, espacios pseudoeuclídeos
Número de registro: 191008 / Última actualización el: 2017-02-07
Síganos en: RSS Facebook Twitter YouTube Gestionado por la Oficina de Publicaciones de la UE Arriba