Analiza elektronicznych kart zdrowia na potrzeby medycyny spersonalizowanej

W elektronicznych kartach zdrowia (ang. electronic health records, EHR), tworzonych w celu ogólnej poprawy systemów opieki zdrowotnej, przechowywane są ogromne ilości informacji medycznych. Europejscy naukowcy zbadali nowe techniki uczenia maszynowego, pozwalające interpretować EHR i identyfikować czynniki ryzyka chorób.

Gospodarka cyfrowa

Zdrowie

Naukowcy w coraz większym stopniu polegają na metodach uczenia maszynowego, aby rozszyfrować złożone wzorce chorób, badać interakcje między lekami i tworzyć prognozy. Obecne metody nie umożliwiają jednak analizowania niestrukturyzowanych danych ani integrowania ogromnych zbiorów danych, takich jak EHR.

Zastosowanie probabilistycznych technik uczenia maszynowego

Zespół projektu PMOHR(odnośnik otworzy się w nowym oknie), realizowanego przy wsparciu działania „Maria Skłodowska-Curie” (MSC), stawił czoła temu wyzwaniu poprzez opracowanie modeli interpretacji do analizy EHR. „Zastosowaliśmy probabilistyczne techniki uczenia maszynowego, które są coraz częściej wykorzystywane do analizy rzeczywistych danych w wielu dziedzinach nauki”, wyjaśnia Francisco Rodríguez Ruiz, stypendysta działania „Maria Skłodowska-Curie”. W probabilistycznym uczeniu maszynowym założenia dotyczące struktury danych są kodowane w modelu z ukrytymi wzorcami. Korzystając z algorytmu wnioskowania, model uczy się tych wzorców i analizuje zbiory danych, aby tworzyć prognozy. Uczonemu udało się wygenerować nową klasę modeli, znaną jako zagnieżdżenia rodzin wykładniczych(odnośnik otworzy się w nowym oknie) (ang. exponential family embeddings, EFE), które mogą rejestrować wzorce współwystępowania w zbiorze danych. Oznacza to, że EFE mogą ujawnić istotne cechy diagnoz, jak również ukryte elementy, takie jak stany chorobowe, warunki medyczne lub parametry biologiczne, które występują wspólnie w danym zestawie danych. EFE w sposób nienadzorowany analizują, w jaki sposób te cechy i diagnozy medyczne są ze sobą powiązane.

Modele wystawione na próbę

Modele PMOHR opierają się na algorytmach szybkiego wnioskowania i dzięki temu mogą obsługiwać różne typy danych w szybszym tempie. Uzyskane wyniki są łatwe do interpretacji przez ekspertów w tej dziedzinie, co pozwala na dopracowanie modeli, w przypadku gdy wyniki nie mają sensu. Modele te są skalowalne do obsługi dużych zbiorów danych, a zatem mogą zostać wykorzystane do analizy statystycznej EHR. Badacze PMOHR zastosowali opracowane narzędzia na publicznie dostępnych danych EHR, jak również na danych zebranych przez Szpital Prezbiteriański w Nowym Jorku. EFE zostały zastosowane na danych dotyczących chorób i tekstach klinicznych z ogólnodostępnej bazy danych MIMIC-III(odnośnik otworzy się w nowym oknie), gdzie pozwoliły na zidentyfikowanie skupisk podobnych chorób wyłącznie w oparciu o wzorce ich współwystępowania. Grupowanie modeli dostarczyło informacji wykraczających poza samą klasyfikację chorób, ukazując nieoczywiste czynniki ryzyka i nadało kierunek przyszłej analizie ukrytych cech.

Znaczenie projektu i perspektywy na przyszłość

Zespół projektu PMOHR rozwinął najnowsze techniki modelowania probabilistycznego poprzez opracowanie narzędzi umożliwiających analizę złożonych zbiorów niejednorodnych danych. Istotną zaletą technik modelowania probabilistycznego jest możliwość pomiaru niepewności prognoz. „W przypadku przewidywania czynników ryzyka choroby, określenie niepewności ma kluczowe znaczenie”, podkreśla Rodríguez Ruiz. Długoterminowym celem projektu PMOHR jest wdrożenie modeli probabilistycznych w celu poprawy systemów opieki zdrowotnej poprzez projektowanie systemów spersonalizowanej medycyny i wsparcia klinicznego. Będzie to skutkowało nie tylko do ogólną poprawą zdrowia, ale także obniżeniem kosztów opieki medycznej. Jednocześnie model ten może przyczynić się do odkrycia uprzednio nieznanych wzorców w danych, a nawet wysnucia nowych teorii przyczynowych. „Nasze plany obejmują rozwój modelu w celu określenia związków przyczynowych oraz skutków leczenia i podawania leków”, podsumowuje Rodríguez Ruiz.