Analyse elektronischer Patientenakten für die personalisierte Medizin
Für die Wissenschaft gewinnen Methoden des maschinellen Lernens immer mehr an Bedeutung, um komplexere Krankheitsbilder entschlüsseln, Wechselwirkungen zwischen Arzneimitteln untersuchen und Vorhersagen treffen zu können. Mit bisherigen Methoden können jedoch weder heterogene Daten analysiert noch größere Datensätze wie EPA zusammengeführt werden.
Arbeit mit probabilistischen Techniken maschinellen Lernens
Unterstützt durch das Marie-Skłodowska-Curie-Programm entwickelte das Projekt PMOHR interpretierbare Modelle für die Auswertung von EPA. „Wir arbeiteten mit probabilistischen Techniken maschinellen Lernens, da sie für die Analyse realer Daten in vielen wissenschaftlichen Forschungsbereichen immer wichtiger werden“, erklärt Forschungsstipendiat Francisco Rodríguez Ruiz. Beim probabilistischen maschinellen Lernen werden Hypothesen zur Datenstruktur in einem Modell mit versteckten Mustern verschlüsselt. Über einen Inferenzalgorithmus erlernt das Modell diese Muster und analysiert Datensätze, um auf dieser Basis Vorhersagen zu treffen. Der Stipendiat entwickelte eine neue Klasse von Modellen, sogenannte exponential family embeddings (EFE), die in einem Datensatz Muster von gleichzeitigem Auftreten erfassen. Dabei enthüllen EFE aussagekräftige Merkmale von Diagnosen und verborgene Elemente, etwa Erkrankungen, medizinische Begriffe oder biologische Parameter, die in einem bestimmten Datensatz zeitgleich vorkommen. Eigenständig analysieren EFE dann Korrelationen zwischen diesen Merkmalen und medizinischen Diagnosen.
Die Modelle im Test
Grundlage der Modelle von PMOHR sind schnelle Inferenzalgorithmen, mit denen verschiedene Datentypen schneller verarbeitet werden können. Gleichzeitig können Fachleute die Ergebnisse leichter interpretieren und die Modelle verfeinern, wenn die Ergebnisse nicht nachvollziehbar sind. Die Modelle sind skalierbar und können große Datenmengen verarbeiten, sodass sie sich für statistische Analysen von EPA eignen. Die Forscher von PMOHR wandten die Methoden auf frei zugängliche EPA-Daten sowie Daten aus dem New York Presbyterian Hospital an. Angewandt auf Erkrankungen und klinische Texte aus der offenen Datenbank MIMIC-III gelang es, Cluster ähnlicher Krankheiten allein aufgrund ihrer Koexistenzmuster zu identifizieren. Durch Modell-Cluster wurden Informationen enthüllt, die über die bloße Klassifizierung von Bedingungen hinausgingen, sodass nicht-triviale Risikofaktoren aufgezeigt und künftige Analysen versteckter Merkmale vereinfacht werden konnten.
Projektbedeutung und Aussichten für die Zukunft
PMOHR erweiterte den technischen Stand bei probabilistischen Modellen, indem Werkzeuge entwickelt wurden, mit denen komplexe Sätze heterogener Daten analysiert werden können. Der große Vorteil probabilistischer Modelltechniken ist, dass sich Unsicherheiten getroffener Vorhersagen messen lassen. „Ein Maß für Unsicherheiten ist bei der Vorhersage von Risikofaktoren für Krankheiten ein entscheidender Faktor“, betont Rodríguez Ruiz. Langfristiges Ziel von PMOHR ist die Implementierung der probabilistischen Modelle und Verbesserung von Gesundheitssystemen durch Entwicklung personalisierter medizinischer und klinischer Unterstützungssysteme. Dies wird nicht nur die medizinische Versorgung verbessern, sondern auch Behandlungskosten senken. Gleichzeitig können aus Daten bislang unbekannte Muster abgeleitet und vielleicht sogar neue kausale Theorien erstellt werden. „Künftige Pläne umfassen die Weiterentwicklung des Modells, um Kausalitäten und Wirkung medizinischer Behandlungen oder Medikamente zu ermitteln“, schließt Rodríguez Ruiz.
Schlüsselbegriffe
PMOHR, probabilistisches maschinelles Lernen, elektronische Patientenakten, EPA, exponential family embeddings, EFE, Modell, Inferenzalgorithmen, probabilistische Modellierung