Sistemi di risposta delle query rapidi e flessibili
Generalmente, gli scienziati utilizzano ricerche relative alla somiglianza della sequenza di database, per il recupero dei dati. Tuttavia, banche dati pubbliche quali GenBank e UniProt/SwissProt, contengono diverse centinaia di migliaia di sequenze, e le tecniche di bioinformatica esistenti non possono raggiungere una buona qualità di recupero dei dati. Il team PROMOS (Probabilistic models in pseudo-Euclidean spaces) ha affrontato questo superamento negli approcci di bioinformatica. Il loro obiettivo era quello di elaborare algoritmi in grado di fornire rapidamente una precisa sequenza dati, in merito a database su larga scala. Per cominciare, i ricercatori hanno utilizzato le somiglianze marcate non-metriche, al fine di derivare e realizzare modelli relazionali probabilistici specifici a livello di dati. È stato sviluppato con successo un quadro probabilistico per metodi relazionali relativi a spazi pseudo-euclidei. Al fine di migliorare l’apprendimento del modello e consentire un rapido recupero di dati, sono stati sviluppati schemi di approssimazione per dati relazionali, come anche un modello gerarchico e uno schema di recupero. Questo approccio specifico in termini di dominio è efficace, poiché converte le matrici di dissimilarità su larga scala in matrici di Kernel approssimate, semi-definite e positive, con costi lineari. La tecnologia PROMOS è stata testata per diversi database relativi a proteine su larga scala e ha dimostrato migliori prestazioni nel tempo di esecuzione, rispetto ai sistemi di recupero classici, con l’accuratezza di un modello competitivo. I metodi sono stati illustrati in numerose pubblicazioni di alto livello, e molte altre sono in fase di preparazione. Le attività e i risultati del progetto dovrebbero accelerare notevolmente la ricerca e lo sviluppo nei settori biotecnologico e farmaceutico.
Parole chiave
Dati di sequenze, bioinformatica, PROMOS, modelli probabilistici, spazi pseudo-euclidei