Ein Standardvokabular für Phänotypen
Viele Bemühungen um Phänotyp-Standardvokabulare werden aufgrund der großen Menge und Komplexität der Daten aus der Primärliteratur erschwert. Die semantische Zuordnung von klinischen und biomedizinischen Datenressourcen mit Erbkrankheiten würde Forschern helfen, da dies die Datenintegration erleichtern würde. Um sich mit diesem Bedarf zu befassen, zielte das Projekt PHENOMINER (Semantic mining of phenotype associations from the biomedical literature) auf die Anwendung modernster Textverarbeitungslösungen an vorhandenen ontologischen Ressourcen. Diese Daten könnten dann in eine maschinenverständliche semantische Repräsentation integriert und über eine öffentliche Datenbank verfügbar gemacht werden. PHENOMINER durchsuchte erfolgreich Phänotypbeschreibungen aus der wissenschaftlichen Literatur, die in Europa PubMed Central gespeichert sind, und fand mithilfe von Data-Mining-Technologie statistische Assoziationen mit Mendelschen Erkrankungen. Für das Benchmarking wurden unter anderem die OMIM-Datenbank (Online Mendelian Inheritance in Man) sowie die Human Phenotype Ontology verwendet. Insgesamt 4.898 Phänotypen und 28.155 Phänotyp-Krankheit-Assoziationen, eine beeindruckende Sammlung von Datensätzen, stellten sich als gleichwertig mit diesen höchsten Qualitätsstandards heraus. Die Teammitglieder generierten erfolgreich eine semantische Datenbank von automatisch gesammelten Phänotypen und Phänotyp-Krankheit-Assoziationen, die in zwei öffentlichen Open-Access-Repositorien zur Verfügung stehen: GitHub und Zenodo. Häufig verwendete Phänotypformen und neue Assoziationen mit OMIM-Erkrankungen könnten durch diese PHENOMINER-Techniken bestimmt werden. Die Projektergebnisse führten zu 13 Publikationen in Zeitschriften sowie auf Konferenzen, die von verschiedenen Wissenstransfermaßnahmen ergänzt wurden. Ansatz und Datenbank von PHENOMINER sind von Bedeutung für Biowissenschaftler und Kliniker, die sich mit translationalen Studien befassen, sowie für Bioinformatiker und Datenbankexperten. Standardisierte Phänotypvokabulare könnten sich als nützlich für die Entdeckung von neuen Therapien gegen Krankheiten wie Alzheimer und Multiple Sklerose erweisen. Darüber hinaus könnte dieser hybride Ansatz auch für Sprachtechnologien, e-Science und Informationsretrieval anwendbar sein.
Schlüsselbegriffe
Phänotyp, Phänotypvokabular, Biomedizin, semantisches Mining, ontologische Ressourcen