eStage, un nuevo marco para la extracción de datos
Arañas en la red es el nombre dado, figuradamente hablando, a aquellas herramientas que examinan minuciosamente Internet para encontrar los datos que se les ha pedido. Estos rastreadores de la web recorren infinidad de servidores en los que se almacena la información, catalogando los resultados que encuentran. El inconveniente es que catalogarán todas aquellas páginas en las que hayan encontrado los términos clave que buscaban sin tener en cuenta la pertinencia de esa información. En otras palabras, no tienen una estructura jerárquica de relaciones conceptuales. Ahora bien, estudiar estos enlaces exige más tiempo del necesario, ya que el usuario debe dedicarse a mirar todas las páginas para encontrar los datos que busca. Aunque algunos motores de búsqueda modernos han mejorado relativamente estas características, la mayoría todavía presentan muchos resultados que poco o nada tienen que ver con el tema buscado. Diseñado por LemonLabs en Alemania, eStage es un motor de búsqueda diferente. Los usuarios sólo pueden navegar empleando términos o frases basados en conceptos jerárquicos que pueden ser agrupados por categorías tales como productos, atributos y personajes. Por ejemplo, si se entra el criterio de búsqueda gafas pueden generarse conceptos como fabricación de gafas, gafas de moda o, incluso, historia de las gafas. Vector voting method (método de votación vectorial) es el nombre dado a este sistema particular de retornar los resultados que presenta eStage. Cuando eStage examina un documento de texto, contará el número de veces que aparece una palabra en el documento y construirá un catálogo basado en estos datos. El término fabricación puede aparecer, por ejemplo, media docena de veces, con lo cual ese documento concreto tendrá más relación con el criterio de búsqueda fabricación de gafas que con gafas de moda. Agrupando los datos de esta manera, se consigue clasificar fácilmente la información de forma espacial, eliminando la ambigüedad de los resultados obtenidos con los motores de búsqueda tradicionales. Así se consigue, además, que el usuario nunca pierda el contexto semántico ni encuentre datos que pertenezcan a un contexto completamente diferente. Mientras que los motores de búsqueda tradicionales pueden retornar cientos de resultados, cuando no miles, eStage presenta únicamente algunos documentos, seleccionados con gran precisión, que tienen mucha más relación con la información que se está buscando. Así se racionaliza todo el proceso de extracción de datos, dado que una petición genera una búsqueda basada, también, en conceptos relacionados. Los motores de búsqueda tradicionales pueden traer todo el contenido de la web a casa, eStage sólo trae lo que es importante. Puede probar las nuevas funciones de extracción de datos y búsqueda de información. Visite el portal de información sobre el mundo de las marionetas en Europa www.epuppetry.com y verá un ejemplo interessante de la tecnología eStage.