Algoritmi in grado di analizzare le sequenze di acidi nucleici
I computer hanno rivoluzionato il modo in cui numerosi campi, tra cui automazione industriale, meccanica quantistica e biomedicina, affrontano problemi complessi. La bioinformatica tenta di stabilire un percorso che collega le informazioni genetiche (sequenze di acidi nucleici o proteine) al fenotipo (caratteristiche, sintomi o disfunzioni osservabili). Il progetto di ricerca ALMOND (Algorithms and tools for mining biological sequence data), finanziato dall’UE, è stato lanciato allo scopo di ideare nuove tecniche destinate alla gestione di importanti problemi che affliggono la biologia molecolare computazionale. La metodologia è stata incentrata su metodi di programmazione dinamica in grado di identificare “problemi secondari” più semplici di un problema complesso, modelli ricorrenti correlati a tali situazioni e la conseguente risoluzione dei casi basilari. I ricercatori di ALMOND hanno ideato nuovi algoritmi efficienti per il confronto delle sequenze proteiche incentrati su una variante innovativa di speciali allineamenti di sequenze vincolati dal percorso (che prende il nome di allineamento di sequenza con vincolo di percorso dell’espressione regolare (SA-REPC)). I ricercatori hanno fornito due nuove soluzioni al problema dell’analisi delle sequenze, le quali possono essere scaricate sul sito web del gruppo. Gli sperimentatori hanno inoltre ideato nuovi algoritmi che consentono di eseguire un confronto tra le sequenze e le strutture di RNA nel caso in cui le sequenze di RNA si trovino nella regione di codifica, come accade solitamente nel caso di virus e batteri. Questi metodi consentono di prevedere l’antenato più comune delle due sequenze di RNA, riuscendo a superare i limiti che caratterizzano gli algoritmi di confronto solitamente utilizzati. Numerosi algoritmi sono stati impiegati per la gestione dei problemi correlati al sequenziamento di prossima generazione (NGS). La mappatura delle letture brevi su un genoma esistente di riferimento rappresenta il primo passo di numerose analisi di dati NGS. Inoltre, lo sviluppo di nuovi metodi di mappatura consente di superare le prestazioni degli algoritmi esistenti, offrendo miglioramenti sostanziali. Una nuova struttura di dati per un grafico impiegato dalla maggior parte dei metodi pratici di assemblaggio del genoma per le informazioni relative al sequenziamento di prossima generazione consente di superare un’importante barriera che ostacola l’elaborazione computazionale dei dati. La possibilità di aumentare del 30-40 % lo spazio di memoria garantito da questi strumenti è stata sfruttata in un software di terze parti (Minia). Nell’ambito del progetto ALMOND è stata concepita una serie di nuovi e importanti algoritmi in grado di superare i limiti che caratterizzano gli strumenti attualmente disponibili che si occupano di bioinformatica e di analisi delle sequenze. Questi e altri risultati sono stati oggetto di intense attività di divulgazione che hanno condotto alla nascita di nuove collaborazioni tra la Francia e Israele. Il progetto registrerà pertanto un enorme impatto destinato a durare nel tempo sul campo della bioinformatica, che assume sempre maggior rilievo sul piano socioeconomico.
Parole chiave
Sequenze di acidi nucleici, bioinformatica, dati biologici, biologia molecolare, sequenziamento di prossima generazione