Skip to main content

Article Category

Story

Article available in the folowing languages:

Reportaje - Los grandes datos a su servicio

El empleo creciente de las TIC en los ámbitos comercial, del ocio y de los servicios públicos provoca que se acumule una enorme cantidad de datos tanto estructurados como faltos de estructura. No obstante, este fenómeno denominado big data («grandes datos») debe considerarse una oportunidad y no un escollo. Investigaciones y trabajos europeos encaminados a fomentar la apertura de los datos contribuyen a la comprensión y el aprovechamiento de este recurso.

Economía digital

El término «datos abiertos» alude a la idea de que los datos deben estar a disposición de quien quiera utilizarlos para poder volver a publicarlos sin limitaciones ni restricciones impuestas por los derechos de autor, las patentes u otros mecanismos de control. Inspirado por los movimientos dedicados al software de código abierto (no propietario) y el acceso libre (publicaciones académicas), el concepto de datos abiertos abarca de forma genérica el movimiento, empleo, reutilización o distribución electrónica sin trabas de los datos. Una parte importante del movimiento por los «grandes datos» guarda relación con el empleo de información no personal que los ciudadanos facilitan a sus administraciones y servicios públicos en el interés general de la sociedad. Los datos abiertos de la administración pública constituyen un recurso enorme que aún no se ha aprovechado en toda su magnitud. «Las administraciones recogen una ingente cantidad de datos de gran calidad en la realización de sus funciones diarias. Si estos datos se pusieran a disposición del público podrían reportar grandes ventajas», según se lee en la página web Open Government Data (OGD, Datos Abiertos de la Administración Pública), gestionada por el Grupo de Trabajo sobre la Administración Pública Abierta (Open Government Working Group). Según Rufus Pollock de la «Fundación Conocimiento Abierto» (Open Knowledge Foundation), la apertura de los datos permitiría que empresas, ciudadanos y organizaciones sin ánimo de lucro construyeran aplicaciones y servicios útiles y además fomenta la democracia, la participación en la administracion, la transparencia y la responsabilidad. «¿Por qué no liberar los datos que ya existen y que ya se están recopilando?» Pero existen numerosos escollos jurídicos, técnicos, sociales y empresariales que habrá que sortear para que las ventajas de los datos abiertos (de la administración pública) queden al alcance de los ciudadanos. El camino hacia el futuro Según los informes de la última Asamblea sobre Internet del Futuro (FIA) celebrada en Aalborg (Dinamarca) «las tendencias como "grandes datos" e "Internet de los objetos", en la que se incluye "las personas como sensores", muestran que los ciudadanos, empresarios e innovadores son capaces de crear nuevos servicios y aplicaciones favorables para la creación de las ciudades inteligentes». Reinhard Scholl, de la Unión Internacional de Telecomunicaciones (UIT) y moderador de la FIA, citó como ejemplos positivos la Iniciativa de Datos Abiertos del Ayuntamiento de Nueva York, el programa Ciudad Inteligente de Amsterdam, el Gencat de Datos Abiertos de Cataluña y el reto Ciudades Abiertas de la Comisión Europea. Las mejores prácticas en los Estados Unidos, en opinión del Sr. Scholl, son el experimento del MIT «Track Trash» -en el que se empleó sensores para vigilar el destino de la basura- y el servicio de «vigilancia de la criminalidad» regido por datos de Oakland, que está contribuyendo a mejorar la seguridad de este núcleo urbano. La información del sector público (ISP) es la fuente de información de mayor tamaño de Europa según la Dirección General de Redes de Comunicación, Contenido y Tecnologías de la Comisión Europea e incluye mapas digitales, datos meteorológicos, jurídicos, del tráfico, financieros, económicos, etc. La mayoría de estos datos en bruto podría reutilizarse o integrarse en nuevos productos y servicios comunes como sistemas de navegación por satélite en automóviles, predicciones meteorológicas, servicios financieros y seguros. «La reutilización de la información del sector público implica aprovecharla de formas innovadoras aportándole un valor añadido, combinar información de distintas fuentes y generar aplicaciones híbridas y nuevas para fines tanto comerciales como de otras clases. La información del sector público posee un enorme potencial económico», explica la Comisión en su página web dedicada a la ISP . La investigación europea se adapta al cambio El panorama científico también ha cambiado para ajustarse a los cambios rápidos que tienen lugar en los mecanismos de recopilación, procesamiento y control de los datos. Por ejemplo, determinados proyectos financiados mediante las actividades «Tecnologías para la gestión de la información» del Séptimo Programa Marco (7PM) y que se engloban en el tema «Contenidos y conocimientos» se han dedicado al estudio de distintos dominios científicos que abarcan los contenidos en Internet, la interactividad y los medios sociales; el razonamiento y el aprovechamiento de la información y el descubrimiento de conocimientos y su gestión. Una iniciativa, el proyecto financiado con fondos europeos Weknowit («Inteligencia colectiva y emergente para uso personal, organizativo y social»), ha desarrollado una plataforma gracias a la cual la inmensidad de contenidos generados por los propios usuarios de Internet pasa de plantear un problema de exceso de información a constituir una nueva «inteligencia colectiva» que ofrece una amplia gama de aplicaciones, desde la respuesta a emergencias hasta la mejora del turismo urbano. Los responsables de dicho proyecto han solicitado la concesión de varias patentes y está prevista la difusión pública o bien comercial de distintos productos y resultados derivados. «Mediante el empleo de una serie de herramientas, la plataforma Weknowit transforma la información poco estructurada y a gran escala en temas, entidades, puntos de interés, conexiones sociales y eventos relevantes», afirmó Yiannis Kompatsiaris, del Laboratorio del conocimiento multimedia del Instituto de Informática y Telecomunicaciones CERTH-ITI (Grecia). Con este fin, los socios del proyecto desarrollaron una aplicación de conectividad que puede instalarse en servidores para procesar los datos entrantes y canalizarlos con eficacia. También crearon varias herramientas mediante los estudios de casos prácticos que se realizaron durante el proyecto, como por ejemplo una simulación de respuesta a emergencias y otra de un grupo social de consumidores, y que les permitieron crear una docena de herramientas adicionales para llevar a cabo tareas concretas. Así, por ejemplo CERTH-ITI, Yahoo! y la Universidad de Coblenza continúan su colaboración y sus actividades de investigación sobre aspectos de la extracción en tiempo real de información de medios sociales y estudiando aplicaciones para el sector de la prensa y el dedicado a grandes acontecimientos como festivales de cine. Datos abiertos también para la ciencia Un empleo mejor de los datos estructurados también beneficia a la investigación científica de manera más directa gracias a los progresos logrados en la computación grid o la supercomputación. La inversión europea en infraestructuras electrónicas dedicadas a utilizar la capacidad «desaprovechada» de ordenadores distribuidos por todo el planeta ha dotado a la comunidad científica de prestaciones de procesamiento y análisis de corpus de datos más voluminosos que nunca, lo cual puede desvelar para algunos de los mayores misterios de la ciencia, desde la física cuántica a la modelización del cambio climático. Por ejemplo, los biólogos dedicados al estudio de un problema concreto podrán crear un «entorno de investigación virtual» (VRE) para colaborar en una grid en la que se procese información de una fuente de Estonia y se analice con herramientas de minería de datos en Portugal. El proyecto financiado con fondos europeos (D4SCIENCE-II) ha ido un paso más allá y ha creado un marco interoperativo dedicado a infraestructuras electrónicas similar a un ecosistema en el que los datos, la capacidad de computación y los recursos de software están situados en distintas infraestructuras electrónicas y pueden compartirse con independencia de su ubicación, tecnología, formato, idioma, protocolo o flujo de trabajo. Este ecosistema ha respaldado VRE dedicados a campos como la física de alta energía, la biodiversidad, la pesca y la acuicultura y ha ayudado a abrir nuevas áreas de investigación en la encrucijada entre estos campos y ya se está ampliando a nuevas disciplinas. Por ejemplo, D4SCIENCE-II apoyó el estudio cartográfico de especies marinas Aquamaps. Este estudio permitió cruzar referencias de la biodiversidad marina con registros de capturas para conocer con más detalle qué poblaciones de peces se enfrentan a un riesgo mayor. Este ejercicio de computación de enorme potencia y con una inmensa cantidad de datos fue posible gracias a la financiación europea de infraestructuras electrónicas y a su política e iniciativas científicas basadas en los datos abiertos. «La cooperación entre varias infraestructuras electrónicas abre posibilidades y áreas de investigación radicalmente nuevas. Ahora se pueden analizar datos científicos contrastándolos con estadísticas económicas, por ejemplo, de manera que se obtiene una perspectiva completamente innovadora e inédita», destacó la Dra. Donatella Castelli, asociada a D4SCIENCE-II y perteneciente al Instituto de Ciencias y Tecnologías de la Información Alessandro Faedo del Consejo Nacional de Investigación de Italia. Publicaciones de acceso libre Aunque varias organizaciones públicas estén liberando sus datos, puede ocurrir que los resultados de las investigaciones que los aprovechan acaben publicándose en revistas caras y de difícil acceso. En un esfuerzo por fomentar la publicación en sitios webs de acceso libre, en concreto aplicada a la investigación financiada con fondos públicos, la Comisión Europea ha obligado a cerca de un 20 % de los proyectos del 7PM a que publiquen sus resultados en este tipo de revistas. Además, cuando los proyectos publican sus resultados en distintas revistas tradicionales y en revistas de acceso abierto, el conocimiento queda fragmentado y no resulta sencillo medir su producción. Openaire («Infraestructura de libre acceso a la investigación en Europa»), financiado con fondos europeos, se propuso que todos los resultados estuvieran al alcance de todo el mundo. El equipo de Openaire reconoció desde el principio de su labor que el mero hecho de mejorar la tecnología no es la panacea que solventará la fragmentación de la investigación y los datos: «Una parte importante del proyecto está dedicada a la promoción del acceso libre entre el colectivo participante en el 7PM -afirmó Natalia Manola, gestora del proyecto-; abogamos por que se publique en régimen de acceso libre, para que los proyectos puedan contribuir de forma plena a la infraestructura del conocimiento de Europa.» Según la Sra. Manola, la contribución realizada por proyectos como Openaire y su continuación Openaireplus podría lograr que la publicación de acceso libre impulse la economía y la innovación en Europa. Para un empleado de una empresa pequeña o un profesor, la suscripción a revistas científicas de alto nivel resulta prohibitiva, lo que implica que investigaciones valiosas quedan guardadas en espacios cerrados. «Gracias al acceso libre, cualquiera puede utilizarlas del modo que mejor le parezca; es la mejor manera de aprovechar al máximo la investigación financiada con fondos públicos», concluyó. En esta línea, la Organización Europea para la Investigación Nuclear (CERN) se puso al frente del proyecto financiado con fondos europeos SOAP («Estudio de la publicación en acceso libre»), dedicado a dar con modelos de negocio sostenibles que fomenten la publicación académica. El equipo documentó más de 4 000 revistas y, tras realizar distintos análisis, descubrió que cerca del 8 % de la producción mundial de artículos científicos, unos 120 000 artículos al año de una cifra total aproximada de 1,5 millones, se publican en formatos de acceso libre. Concluyeron que un modelo de «acceso libre híbrido» (basado parcialmente en suscripciones) es la opción más viable, sobre todo en lo relativo a la publicación de información relacionada con la ciencia y la investigación. «Al mejorar los modelos viables de acceso libre, los investigadores europeos y del resto del mundo se beneficiarán del intercambio de conocimientos y tendrán acceso a un volumen impresionante de material», según se lee en el informe de CORDIS sobre SOAP Libre acceso a montañas de investigación . El mensaje de los datos La liberación de datos públicos, la combinación de corpus y la publicación de resultados en medios de acceso libre presentan distintas ventajas para la ciencia, pero la obtención de provecho económico a partir de datos estructurados supone un reto de mayor complejidad. Algunos proyectos europeos recientes están dedicados a este tema. El proyecto financiado con fondos europeos CODE («Ecosistemas de datos abiertos vinculados y capacitados para su comercialización en el ámbito científico») es una iniciativa encabezada por PYME dedicada a los aspectos de los contenidos digitales y los idiomas en relación al movimiento de los «grandes datos». Los «datos abiertos vinculados» muestran un potencial enorme de establecerse como el próximo paso evolutivo de Internet, según el equipo de CODE, pero en la actualidad no se aprovechan en toda su magnitud debido a que no existen estrategias para su empleo y explotación comercial. CODE, puesto en marcha este año, está desarrollando un ecosistema sólido para la comercialización de datos abiertos vinculados basado en una cadena de creación de valor que una a agentes tradicionales (proveedores de datos y consumidores) y no tradicionales (como analistas de datos) de los mercados de datos. Los resultados preliminares parecen prometedores. Los socios del proyecto financiado con fondos europeos Limosine («Motores de agregación semántica de motivación lingüística») son conscientes de que la sociedad emplea cada vez más tiempo en Internet y por ello estudian formas de aprovechar las tecnologías del lenguaje y de las búsquedas semánticas para mejorar la experiencia de los usuarios. «Una amplia gama de actividades humanas provocan la acumulación de información que puede tratar sobre ciencia, hechos, contenidos personales, opiniones y tendencias», indicó el equipo del proyecto. El sistema de minería de opiniones basado en una web plurilingüe de Limosine pone los medios para que Internet pase de unas búsquedas centradas en los documentos a un dominio más amplio como es la agregación semántica. Dicho de otro modo, se podrá obtener resultados de búsquedas más concretos y con mayor rapidez mediante herramientas más inteligentes capaces de comprender mejor e incluso predecir el objeto de la búsqueda. Por ejemplo, una búsqueda de la expresión «el chocolate del loro» en un buscador actual devuelve resultados sobre la expresión y sobre la película, pero es posible que alguien no experto en el idioma español pudiese estar buscando información sobre formas de variar la dieta de su mascota. Las herramientas de búsqueda semántica son capaces de dar contexto al término buscado en función de otras consultas anteriores o de otros indicios. Por otro lado, proyectos como LIVE+GOV reúnen capacidades de «detección, minería y aumentación de la realidad para entablar un diálogo entre la población y la administración». El proyecto está desarrollando una solución denominada m-government que permite a los ciudadanos expresar sus necesidades a la administración mediante tecnologías de detección móviles instaladas en teléfonos inteligentes en conjunción con otros formatos de participación electrónica móviles ya establecidos. Aceite para los engranajes de la economía europea Llegará un momento en el que los datos públicos generados por todas las administraciones de Europa puedan reutilizarse de forma automática, impulsando de este modo la innovación y la iniciativa empresarial y creando nuevas aplicaciones y servicios tanto para dispositivos móviles como estáticos. «Del mismo modo en que el petróleo se denominó el oro negro, los datos adquieren una nueva importancia y valor en la era digital», comentó Neelie Kroes, Vicepresidenta de la Comisión Europea responsable de la Agenda Digital durante la presentación en diciembre de la Estrategia de Datos Abiertos de la UE. Esta normativa sobre datos abiertos informa sobre la nueva directiva relativa a la reutilización de la información del sector público que se ha presentado al Consejo y el Parlamento europeos. La información del sector público ya genera una actividad económica valorada en cerca de 32 000 millones de euros anuales. La nueva normativa podrá duplicar con creces esta cantidad hasta llegar a los 70 000 millones de euros, una cantidad que según la Sra. Kroes «se hace muy necesaria para impulsar nuestra economía». Alabó las iniciativas de Dinamarca, Francia y Reino Unido sobre datos abiertos y afirmó que la nueva estrategia «reorganizará de manera radical» la forma en la que las instituciones europeas y las autoridades públicas de Europa comparten sus datos. La Sra. Kroes animó a los gobiernos a que no esperen hasta que esta normativa se convierta en ley: «Pueden liberar ya sus datos y generar ingresos y empleo e incluso ahorrar dinero gracias a las decisiones y a la información mejores que generará.» Animó además a que el sector privado libere también sus datos para crear nuevos servicios. «Los datos son oro, demos comienzo a su explotación», instó. --- Todos los proyectos mencionados en este artículo recibieron fondos del Séptimo Programa Marco (7PM) de investigación de la UE o de otras iniciativas europeas. Enlaces útiles: - Europa 2020 - FIA - Programa de trabajo de TIC del 7PM - El 7PM en CORDIS - Página web de información sobre el sector público en Europa - Open Government Data - NTC Open Data - Amsterdam Smart City - Open Data Gencat - Open Cities - Science Commons - Weknowit - CODE - Limosine - Openaire - SOAP - D4SCIENCE-II - LIVE+GOV Artículos relacionados: - Minería de datos 3.0: de la información a una «inteligencia colectiva» - Promoción del acceso libre a los resultados de proyectos de la UE - Libre acceso a montañas de investigación - Salvar los ecosistemas naturales con ecosistemas de infraestructuras electrónicas y de datos abiertos - «Data is new gold», discurso de Neelie Kroes sobre la Estrategia para los datos abiertos, diciembre de 2011