Nueva herramienta para mejorar la calidad de las bases de datos de proteínas

En las bases de datos públicas sigue habiendo genes y proteínas anómalos, incompletos o con fallos de predicción, pese a los recientes esfuerzos realizados por mejorar la anotación computacional de los genomas. Estos errores van en perjuicio de la fiabilidad de las bases de datos. Ahora un equipo de investigadores ha creado una nueva herramienta, denominada «MisPred», que ofrece un medio eficiente para controlar la calidad de las bases de datos. Los investigadores hablan sobre esta herramienta en un artículo publicado recientemente en la revista de acceso abierto BMC Bioinformatics. El trabajo correspondiente se llevó a cabo dentro del proyecto comunitario BioSapiens, subvencionado con doce millones de euros a través del área temática «Ciencias de la vida, genómica y biotecnología para la salud» del Sexto Programa Marco (6PM). Los científicos explicaron que la herramienta MisPred se vale de cinco «rutinas» para identificar entradas sospechosas de ser anómalas, incompletas o erróneas cuya base es la premisa lógica de que es probable que una secuencia sea incorrecta si alguna de sus características está reñida con los conocimientos actuales sobre las proteínas y los genes codificadores de proteínas: (1) las proteínas transmembrana o extracelulares deben tener secuencias señales adecuadas para la secreción; (2) en una proteína con partes intracelulares y extracelulares debe haber al menos un segmento transmembrana; (3) en una misma proteína no puede haber a la vez dominios obligatorios extracelulares y dominios obligatorios nucleares; (4) el número de residuos de aminoácidos en miembros estrechamente relacionados de la misma familia de dominio globular debe situarse en un intervalo relativamente reducido; y (5) toda proteína debe ser codificada por exones localizados en un mismo cromosoma. El equipo estuvo dirigido por el profesor László Patthy, investigador del Instituto de Enzimología de la Academia de las Ciencias de Hungría. «Diversos estudios han demostrado recientemente que una proporción considerable de genes eucariotas se predice erróneamente a nivel de la transcripción», aseguró el profesor Patthy. «Las rutinas programadas en MisPred pueden detectar muchos de estos errores y ayudar en su corrección, por lo que opinamos que puede mejorar significativamente la calidad de los datos sobre secuencias proteicas basadas en predicciones genéticas.» El profesor Patthy señaló, no obstante, que algunas proteínas secretadas podrían, en realidad, «carecer de péptidos señales de secreción, al estar sometidas a un tipo de secreción proteica que no requiere péptidos promotores». El científico añadió: «Del mismo modo, actualmente ya no pueden descartarse ni la formación de quimeras transcromosómicas ni el que éstas desempeñen funciones fisiológicas normales. No obstante, el hecho de que al analizar secuencias proteicas de la base de datos Swiss-Prot con la herramienta MisPred se hallaran muy pocas excepciones de esas características indica que las reglas que aplica MisPred son por lo general válidas.» En la investigación se constató que las predicciones erróneas se deben, en su mayoría, o a que no están presentes los péptidos señales esperados o a que no se respeta la integridad de los dominios. «Curiosamente, incluso la base de datos UniProtKB/Swiss-Prot, donde los datos se introducen manualmente, está contaminada con predicciones erróneas o proteínas anómalas, aunque en mucha menor medida que en las entradas predichas por UniProtKB/TrEMBL, EnsEMBL o GNOMON», indicaron los científicos. Según éstos, MisPred proporcionará a la comunidad investigadora más tiempo para realizar más estudios sobre los genes identificados de forma errónea.

Nueva herramienta para mejorar la calidad de las bases de datos de proteínas

Artículos conexos

Compartir esta página Compartir esta página en las redes sociales

Descargar Descargar el contenido de la página