Szybkie i elastyczne systemy odpowiedzi na zapytania
Naukowcy standardowo wydobywają dane, wykorzystując wyszukiwania podobieństw sekwencji w bazie danych. Jednakże, publiczne bazy danych takie jak GenBank i UniProt/SwissProt zawierają setki tysięcy sekwencji, a obecnie dostępne technologie bioinformatyczne nie zapewniają dobrej jakości procesu wydobywania danych. Zespół PROMOS (Probabilistic models in pseudo-Euclidean spaces) znalazł rozwiązanie tego problemu w metodach bioinformatycznych. Celem naukowców było opracowanie algorytmów, które w bardzo krótkim czasie dostarczą właściwe dane sekwencji z dużych baz danych. W pierwszym etapie badacze wykorzystali generyczne niemetryczne podobieństwa wyniku, aby uzyskać i wdrożyć probabilistyczne modele relacyjne. Udało im się opracować platformę probabilistyczną dla metod relacyjnych w przestrzeniach pseudo euklidesowych. Aby usprawnić uczenie się modelu oraz umożliwić szybkie wydobywanie wiedzy, naukowcy stworzyli schematy aproksymacji dla danych relacyjnych, a także model hierarchiczny oraz schematy wydobywania. To podejście specyficzne dla domeny jest skuteczne, ponieważ przekłada macierze braku podobieństwa dużej skali na aproksymowane dodatnio półokreślone macierze jądra po kosztach liniowych. Technologię PROMOS przetestowano na kilku dużych bazach danych białek i uzyskano lepszy czas działania niż w przypadku klasycznych systemów wydobywania danych przy konkurencyjnej dokładności modelu. Metody zostały opisane w artykułach opublikowanych w kilku renomowanych czasopismach, a kilka innych prac jest jeszcze w trakcie opracowywania. Działania prowadzone w ramach projektu oraz jego wyniki powinny znacznie przyspieszyć prace badawczo-rozwojowe w dziedzinie biotechnologii i farmacji.
Słowa kluczowe
Dane sekwencji, bioinformatyka, PROMOS, modele probabilistyczne, przestrzenie pseudo euklidesowe