Servizio Comunitario di Informazione in materia di Ricerca e Sviluppo - CORDIS

Sistemi di risposta delle query rapidi e flessibili

Alcuni progressi in fatto di biotecnologia, nello specifico in ambito delle tecniche genomiche, hanno prodotto un gran numero di dati di sequenze. Il recupero di dati di sequenze rilevanti da tali vasti database richiede un modello di principio formalizzato, un aspetto che i ricercatori finanziati dall’UE hanno risolto con successo.
Sistemi di risposta delle query rapidi e flessibili
Generalmente, gli scienziati utilizzano ricerche relative alla somiglianza della sequenza di database, per il recupero dei dati. Tuttavia, banche dati pubbliche quali GenBank e UniProt/SwissProt, contengono diverse centinaia di migliaia di sequenze, e le tecniche di bioinformatica esistenti non possono raggiungere una buona qualità di recupero dei dati.

Il team PROMOS (Probabilistic models in pseudo-Euclidean spaces) ha affrontato questo superamento negli approcci di bioinformatica. Il loro obiettivo era quello di elaborare algoritmi in grado di fornire rapidamente una precisa sequenza dati, in merito a database su larga scala.

Per cominciare, i ricercatori hanno utilizzato le somiglianze marcate non-metriche, al fine di derivare e realizzare modelli relazionali probabilistici specifici a livello di dati. È stato sviluppato con successo un quadro probabilistico per metodi relazionali relativi a spazi pseudo-euclidei.

Al fine di migliorare l’apprendimento del modello e consentire un rapido recupero di dati, sono stati sviluppati schemi di approssimazione per dati relazionali, come anche un modello gerarchico e uno schema di recupero. Questo approccio specifico in termini di dominio è efficace, poiché converte le matrici di dissimilarità su larga scala in matrici di Kernel approssimate, semi-definite e positive, con costi lineari.

La tecnologia PROMOS è stata testata per diversi database relativi a proteine su larga scala e ha dimostrato migliori prestazioni nel tempo di esecuzione, rispetto ai sistemi di recupero classici, con l’accuratezza di un modello competitivo. I metodi sono stati illustrati in numerose pubblicazioni di alto livello, e molte altre sono in fase di preparazione.

Le attività e i risultati del progetto dovrebbero accelerare notevolmente la ricerca e lo sviluppo nei settori biotecnologico e farmaceutico.

Informazioni correlate

Keywords

Dati di sequenze, bioinformatica, PROMOS, modelli probabilistici, spazi pseudo-euclidei