Skip to main content
European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

cOmpRession of Genomic dAta to facilitate precision MedIcine

Article Category

Article available in the following languages:

Nueva técnica ayuda a manejar el torrente de datos genómicos

En la actualidad, la tecnología hace posible la secuenciación completa del genoma humano, acercando la posibilidad de la medicina personalizada. Una incipiente empresa francesa de tecnología ha estado probando su algoritmo de compresión extrema de datos, lo que facilitaría su almacenamiento y transferencia.

La secuenciación de alto rendimiento —una técnica que puede ejecutar miles de procesos de secuenciación en paralelo— hace posible la secuenciación completa del genoma humanoen aproximadamente un día. Esta tecnología no solo ha reducido los costos de la secuenciación, sino también ha acercado la posibilidad de la medicina personalizada. El hecho de poder ver el perfil genético y molecular único de una persona ayudaría a los científicos a predecir las posibilidades de que desarrolle una determinada enfermedad. Además, ayudaría a los doctores a elegir el mejor tratamiento cuando se desarrolla una enfermedad. Sin embargo, la secuenciación genómica produce un enorme cantidad de datos. «Si se secuencia el genoma completo solo para un paciente, estamos hablando de 3 000 millones de pares de bases. Si se quiere secuenciar una molécula para encontrar algunas variantes, hay que hacerlo varias veces, por lo que podrían obtenerse treinta veces más que esa cantidad», explica Jennifer del Giudice, directora general de Enancio y coordinadora del proyecto ORIGAMI, financiado con fondos europeos.

Cómo almacenar los datos

«Por eso, la gran pregunta es ¿cómo almacenamos y transferimos estos datos personales esenciales? Podría ser necesario almacenarlos durante diez o quince años. Esta es una gran oportunidad para tratar enfermedades de una manera diferente, pero ¿cómo se maneja toda la información?» Enancio ha desarrollado un algoritmo llamado Lena, basado en una idea del director de tecnología de la empresa, Guillaume Rizk, y diseñado para emplearse en el sector de datos genómicos, que ofrece una alta compresión sin pérdida de datos. Lena demuestra un gran cociente de compresión, comprime y extrae rápidamente los datos sin pérdidas y requiere menos recursos informáticos para funcionar que cualquier otra tecnología disponible en el mercado. Mediante ORIGAMI, el equipo de Enancio evaluó el rendimiento de Lena en estas métricas con la última versión de la plataforma Illumina —el proveedor más utilizado para la secuenciación de alto rendimiento en el mundo. Los resultados mostraron que Lena puede reducir el tamaño de los datos por un factor de cinco respecto al programa de compresión genérico utilizado en la actualidad. Esto permite ahorros considerables en lo que respecta a los tiempos de transferencia y el costo del almacenamiento de datos.

Cinco veces más pequeño

«Las personas que ya emplean técnicas de compresión reducirán un archivo de 500 GB a 100 GB. Con Lena se puede hacer cinco veces más pequeño, es decir reducir a 20 GB, pero además se puede hacer tres veces más rápido que con las técnicas de compresión simples», añade del Giudice. El estudio de mercado de ORIGAMI le permitió a Enancio agrupar a los potenciales clientes en segmentos y explorar de qué manera difieren sus necesidades de comprimir datos. Una de las necesidades que sobresalió fue la posibilidad de integrar la compresión dentro de los procesos existentes, de forma transparente y sin interrumpir el flujo de trabajo. La demanda de secuenciación sigue creciendo. Desde la última década hasta 2015, los datos genómicos han crecido a una velocidad sorprendente, duplicándose cada siete meses según un estudio publicado en «PLOS Biology», y se espera que esta tasa de crecimiento se acelere. Enancio descubrió que hay muchos usuarios de datos que aún no han llegado al punto de inflexión en el que su gestión es imposible de manejar. «El volumen de datos aún no está causando problemas a todos, pero lo hará muy pronto», señala del Giudice.

Palabras clave

ORIGAMI, compresión de datos, compresión, datos genómicos, genoma humano, secuenciación, secuenciación de alto rendimiento, medicina personalizada

Descubra otros artículos del mismo campo de aplicación