Nueva técnica ayuda a manejar el torrente de datos genómicos
La secuenciación de alto rendimiento —una técnica que puede ejecutar miles de procesos de secuenciación en paralelo— hace posible la secuenciación completa del genoma humanoen aproximadamente un día. Esta tecnología no solo ha reducido los costos de la secuenciación, sino también ha acercado la posibilidad de la medicina personalizada. El hecho de poder ver el perfil genético y molecular único de una persona ayudaría a los científicos a predecir las posibilidades de que desarrolle una determinada enfermedad. Además, ayudaría a los doctores a elegir el mejor tratamiento cuando se desarrolla una enfermedad. Sin embargo, la secuenciación genómica produce un enorme cantidad de datos. «Si se secuencia el genoma completo solo para un paciente, estamos hablando de 3 000 millones de pares de bases. Si se quiere secuenciar una molécula para encontrar algunas variantes, hay que hacerlo varias veces, por lo que podrían obtenerse treinta veces más que esa cantidad», explica Jennifer del Giudice, directora general de Enancio y coordinadora del proyecto ORIGAMI, financiado con fondos europeos.
Cómo almacenar los datos
«Por eso, la gran pregunta es ¿cómo almacenamos y transferimos estos datos personales esenciales? Podría ser necesario almacenarlos durante diez o quince años. Esta es una gran oportunidad para tratar enfermedades de una manera diferente, pero ¿cómo se maneja toda la información?» Enancio ha desarrollado un algoritmo llamado Lena, basado en una idea del director de tecnología de la empresa, Guillaume Rizk, y diseñado para emplearse en el sector de datos genómicos, que ofrece una alta compresión sin pérdida de datos. Lena demuestra un gran cociente de compresión, comprime y extrae rápidamente los datos sin pérdidas y requiere menos recursos informáticos para funcionar que cualquier otra tecnología disponible en el mercado. Mediante ORIGAMI, el equipo de Enancio evaluó el rendimiento de Lena en estas métricas con la última versión de la plataforma Illumina —el proveedor más utilizado para la secuenciación de alto rendimiento en el mundo. Los resultados mostraron que Lena puede reducir el tamaño de los datos por un factor de cinco respecto al programa de compresión genérico utilizado en la actualidad. Esto permite ahorros considerables en lo que respecta a los tiempos de transferencia y el costo del almacenamiento de datos.
Cinco veces más pequeño
«Las personas que ya emplean técnicas de compresión reducirán un archivo de 500 GB a 100 GB. Con Lena se puede hacer cinco veces más pequeño, es decir reducir a 20 GB, pero además se puede hacer tres veces más rápido que con las técnicas de compresión simples», añade del Giudice. El estudio de mercado de ORIGAMI le permitió a Enancio agrupar a los potenciales clientes en segmentos y explorar de qué manera difieren sus necesidades de comprimir datos. Una de las necesidades que sobresalió fue la posibilidad de integrar la compresión dentro de los procesos existentes, de forma transparente y sin interrumpir el flujo de trabajo. La demanda de secuenciación sigue creciendo. Desde la última década hasta 2015, los datos genómicos han crecido a una velocidad sorprendente, duplicándose cada siete meses según un estudio publicado en «PLOS Biology», y se espera que esta tasa de crecimiento se acelere. Enancio descubrió que hay muchos usuarios de datos que aún no han llegado al punto de inflexión en el que su gestión es imposible de manejar. «El volumen de datos aún no está causando problemas a todos, pero lo hará muy pronto», señala del Giudice.
Palabras clave
ORIGAMI, compresión de datos, compresión, datos genómicos, genoma humano, secuenciación, secuenciación de alto rendimiento, medicina personalizada