Skip to main content
Przejdź do strony domowej Komisji Europejskiej (odnośnik otworzy się w nowym oknie)
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary
Zawartość zarchiwizowana w dniu 2024-06-18
Probabilistic Models in Pseudo-Euclidean Spaces

Article Category

Article available in the following languages:

Szybkie i elastyczne systemy odpowiedzi na zapytania

Postępy w biotechnologii, a w szczególności technologie genomowe, pozwoliły na zgromadzenie ogromnej ilości danych sekwencji. Aby wydobyć istotne dane sekwencji z tak olbrzymich baz danych, konieczny jest oparty na zasadach, sformalizowany model. Taki właśnie model udało się opracować naukowcom finansowanym przez UE.

Naukowcy standardowo wydobywają dane, wykorzystując wyszukiwania podobieństw sekwencji w bazie danych. Jednakże, publiczne bazy danych takie jak GenBank i UniProt/SwissProt zawierają setki tysięcy sekwencji, a obecnie dostępne technologie bioinformatyczne nie zapewniają dobrej jakości procesu wydobywania danych. Zespół PROMOS (Probabilistic models in pseudo-Euclidean spaces) znalazł rozwiązanie tego problemu w metodach bioinformatycznych. Celem naukowców było opracowanie algorytmów, które w bardzo krótkim czasie dostarczą właściwe dane sekwencji z dużych baz danych. W pierwszym etapie badacze wykorzystali generyczne niemetryczne podobieństwa wyniku, aby uzyskać i wdrożyć probabilistyczne modele relacyjne. Udało im się opracować platformę probabilistyczną dla metod relacyjnych w przestrzeniach pseudo euklidesowych. Aby usprawnić uczenie się modelu oraz umożliwić szybkie wydobywanie wiedzy, naukowcy stworzyli schematy aproksymacji dla danych relacyjnych, a także model hierarchiczny oraz schematy wydobywania. To podejście specyficzne dla domeny jest skuteczne, ponieważ przekłada macierze braku podobieństwa dużej skali na aproksymowane dodatnio półokreślone macierze jądra po kosztach liniowych. Technologię PROMOS przetestowano na kilku dużych bazach danych białek i uzyskano lepszy czas działania niż w przypadku klasycznych systemów wydobywania danych przy konkurencyjnej dokładności modelu. Metody zostały opisane w artykułach opublikowanych w kilku renomowanych czasopismach, a kilka innych prac jest jeszcze w trakcie opracowywania. Działania prowadzone w ramach projektu oraz jego wyniki powinny znacznie przyspieszyć prace badawczo-rozwojowe w dziedzinie biotechnologii i farmacji.

Słowa kluczowe

Dane sekwencji, bioinformatyka, PROMOS, modele probabilistyczne, przestrzenie pseudo euklidesowe

Znajdź inne artykuły w tej samej dziedzinie zastosowania