Neues Werkzeug zur Verbesserung der Qualitätskontrolle von Proteindatenbanken
Trotz jüngster Bemühungen zur Verbesserung der computergestützten Annotation von Genomen tummeln sich in öffentlich zugänglichen Datenbanken immer noch fehlerhafte, unvollständige und falsch prognostizierte Genome. Diese Fehler wirken sich negativ auf die Zuverlässigkeit der Datenbanken aus. Doch eine Forschergruppe hat jetzt ein neues Werkzeug mit dem Namen "MisPred" entwickelt, das ein wirksames Mittel zur Qualitätskontrolle von Datenbanken bietet. Die jüngst im Open-Access-Magazin BMC - Bioinformatics veröffentlichte Arbeit wurde im Rahmen des EU-Projekts BioSapiens durchgeführt, das mit 12 Millionen Euro unter dem Themenbereich "Biowissenschaften, Genomik und Biotechnologie im Dienste der Gesundheit" des Sechsten Rahmenprogramms (RP6) gefördert wird. Das MisPred-Tool benutzt fünf Routinen, um verdächtige fehlerhafte, unvollständige und falsch prognostizierte Einträge zu identifizieren. Grundlage dafür ist die Überlegung, dass eine Sequenz wahrscheinlich falsch ist, wenn eines der Merkmale mit dem bestehenden Wissen über Protein codierende Gene und Proteine im Widerspruch steht: (1) extrazelluläre oder transmembrane Proteine müssen angemessene sekretorische Signale haben; (2) auf einem Protein mit intra- und extrazellulären Teilen, muss sich ein Transmembransegment befinden; (3) extrazelluläre und nukleare Bereiche dürfen nicht in einem einzigen Protein vorkommen; (4) die Anzahl von Aminosäureresten bei nah verwandten Mitgliedern eines globularen Bereichs muss in eine relativ nahe Spanne fallen und (5) ein Protein muss durch Exons auf einem einzigen Chromosom codiert werden. Das Team wurde von Professor László Patthy, einem Forscher am Institut für Enzymologie der Ungarischen Akademie der Wissenschaften, geleitet. "Neue Studien haben gezeigt, dass ein großer Anteil eukariotischer Gene auf Transkriptionsebene falsch prognostiziert wurde", sagte Professor Patthy. "Da die MisPred-Routinen viele dieser Fehler feststellen und zu ihrer Korrektur beitragen können, denken wir, dass das Werkzeug die Qualität der Daten zu den Proteinsequenzen auf der Grundlage von Genprognosen verbessern kann." Professor Patthy hob allerdings auch hervor, dass einige sekretierte Proteine "über keine sekretorischen Signalpeptide verfügen, weil sie einer Proteinsekretion ohne Leaderpeptide unterliegen". "Gleichermaßen kann derzeit auch nicht ausgeschlossen werden, dass transchromosomale Schimären gebildet werden, die eventuell auch normale physiologische Funktionen haben können. Da jedoch die MisPred-Analysen der Proteinsequenzen der Swiss-Prot-Datenbank nur wenige derartige Ausnahmen zutage brachten, sind die Regeln von MisPred im Allgemeinen gültig." Die Forschung zeigte, dass die meisten falschen Prognosen aufgrund der fehlenden erwarteten Signalpeptide und durch Verletzung der Integrität des Bereichs zustande kommen. "Interessanterweise ist sogar der manuell gepflegte Datensatz UniProtKB/Swiss-Prot mit falsch prognostizierten oder fehlerhaften Proteinen kontaminiert, allerdings in geringerem Maße als prognostizierte Einträge von UniProtKB/TrEMBL oder EnsEMBL oder GNOMON ", sagte das Team. Durch MisPred werden Forscher mehr Zeit zur Durchführung von Studien zu falsch identifizierten Genen erhalten, so das Team.