Analisi di cartelle cliniche elettroniche per la medicina personalizzata

Le cartelle cliniche elettroniche (EHR, Electronic Health Records) archiviano enormi quantità di informazioni mediche con l’obiettivo generale di migliorare i sistemi sanitari. I ricercatori europei hanno esplorato tecniche innovative di apprendimento automatico per interpretare le EHR e individuare i fattori di rischio per le malattie.

Economia digitale

Salute

I ricercatori fanno sempre più spesso affidamento su metodi di apprendimento automatico per decifrare i complessi schemi delle malattie, per studiare le interazioni tra farmaci, e per fare previsioni. Tuttavia, i metodi attuali non supportano l’analisi di dati eterogenei, né l’integrazione di enormi set di dati quali ad esempio le EHR.

Impiegare tecniche di apprendimento automatico probabilistiche

Condotto con il supporto del programma Marie Skłodowska-Curie (MSC), il progetto PMOHR(si apre in una nuova finestra) ha affrontato questa sfida sviluppando modelli interpretabili in grado di analizzare le EHR. «Abbiamo impiegato tecniche di apprendimento automatico probabilistiche che sono utilizzate sempre più spesso per analizzare dati reali in molti ambiti scientifici», spiega il borsista MSC Francisco Rodríguez Ruiz. Nell’apprendimento automatico probabilistico, le ipotesi sulla struttura dei dati sono codificate in un modello con schemi nascosti. Utilizzando un algoritmo di inferenza, il modello apprende questi schemi ed esplora i set di dati per fare delle previsioni. Il borsista MSC ha generato una nuova categoria di modelli, noti come integrazioni di famiglia esponenziale(si apre in una nuova finestra) (o EFE, Exponential Family Embeddings), che possono cogliere gli schemi di co-occorrenza nei set di dati. Essenzialmente, ciò significa che le EFE possono svelare caratteristiche significative delle diagnosi, nonché elementi nascosti quali le malattie, i termini medici o i parametri biologici che co-occorrono in un determinato set di dati. Le EFE analizzano, in modo non supervisionato, la maniera in cui queste caratteristiche e diagnosi mediche sono legate le une alle altre.

Mettere alla prova i modelli

I modelli di PMOHR sono basati su veloci algoritmi di inferenza e possono pertanto gestire diversi tipi di dati a ritmo più sostenuto. Al tempo stesso, i risultati sono facilmente interpretabili da esperti del campo, consentendo ai modelli di essere perfezionati se non è possibile dare un senso ai risultati. I modelli sono scalabili per gestire grandi set di dati, e possono pertanto essere utilizzati per l’analisi statistica delle EHR. I ricercatori di PMOHR hanno applicato gli strumenti a dati di EHR disponibili al pubblico, nonché a dati provenienti dal New York Presbyterian Hospital. Le EFE applicate a malattie e a testi clinici provenienti dal database accessibile gratuitamente MIMIC-III(si apre in una nuova finestra) hanno individuato raggruppamenti di malattie simili esclusivamente sulla base dei loro schemi di co-occorrenza. Il raggruppamento dei modelli ha rivelato informazioni che vanno oltre la semplice classificazione delle malattie, svelando fattori di rischio non trascurabili e guidando l’analisi futura di caratteristiche nascoste.

Importanza e prospettive future del progetto

PMOHR ha contribuito al progresso dello stato dell’arte nel campo della modellizzazione probabilistica tramite lo sviluppo di strumenti con la capacità di analizzare complessi set di dati eterogenei. Un vantaggio importante delle tecniche di modellizzazione probabilistiche è la capacità di misurare l’incertezza delle previsioni. «Quando si tratta di prevedere i fattori di rischio per la malattia, una misura dell’incertezza è critica», sottolinea Rodríguez Ruiz. L’obiettivo a lungo termine di PMOHR è quello di implementare i modelli probabilistici per migliorare i sistemi sanitari tramite la progettazione di farmaci personalizzati e sistemi di supporto clinici. Ciò non contribuirà soltanto a migliorare la salute, ma comporterà anche una riduzione dei costi della sanità. Al tempo stesso, ha il potere di svelare schemi precedentemente sconosciuti a partire dai dati e persino di condurre a nuove teorie causali. «Progetti futuri prevedono il progresso dei modelli per determinare la causalità e l’effetto di cure mediche o farmaci», conclude Rodríguez Ruiz.