Servicio de Información Comunitario sobre Investigación y Desarrollo - CORDIS

Tendencias científicas: Un algoritmo basado en datos masivos para reconocer la próxima novela superventas

En «The Bestseller Code: Anatomy of a Blockbuster Novel», recién publicado, dos investigadores de Stanford describen el algoritmo que crearon para predecir, con una precisión del 80 %, qué novelas llegarán a ser superventas.
Tendencias científicas: Un algoritmo basado en datos masivos para reconocer la próxima novela superventas
La industria editorial vive a base de producir grandes éxitos, igual que ocurre en muchos otros sectores de la cultura, como los del cine y la televisión. Los editores suelen guiarse por su intuición, sus conocimientos y los éxitos precedentes a la hora de decidir qué publicar, pero por el momento nadie es capaz de predecir con seguridad qué novelas se convertirán en superventas. De hecho, la historia está plagada de desaciertos notorios, y algunas de las novelas más vendidas y aclamadas por la crítica fueron rechazadas previamente por numerosas editoriales. Eso es lo que les ocurrió a J. K. Rowling con su «Harry Potter y la piedra filosofal», a Stephen King con «Carrie» (rechazada treinta veces en total) y a Frank Herbert con su obra maestra de la ciencia ficción «Dune», por nombrar a tres autores emblemáticos que alcanzaron una inmensa fama cuando por fin consiguieron un contrato editorial.

Ahora, el susodicho algoritmo (que sus creadores han bautizado como «bestseller-ometer», es decir, «superventómetro») podría echar una mano al respecto. Se basa en un fenómeno surgido en el sector editorial durante la década del año 2000, cuando empezaron a popularizarse los libros electrónicos digitales: complementar la intuición de los editores con el uso de los datos masivos. La iniciativa de programar este algoritmo se remonta a 2008, cuando Jodie Archer —estudiante de doctorado de la Universidad de Stanford— y Matthew L. Jockers —profesor asociado de lengua inglesa— decidieron colaborar para indagar en si un ordenador podría llegar a analizar y entender libros de un modo que resulta inalcanzable para las personas. (Jockers trabaja ahora en la Universidad de Nebraska-Lincoln, pero en su momento ayudó a fundar el «Laboratorio Literario de Stanford»).

Procesamiento de datos para dar con la novela perfecta

Al cabo de varios años de colaboración, computaron los datos de veinte mil novelas superventas según las cifras de «The New York Times» empleando la potencia de procesamiento de miles de ordenadores. Previamente habían instruido a estos ordenadores a «leer», es decir, a determinar dónde empiezan y acaban las oraciones, a reconocer los constituyentes sintácticos y a esquematizar las tramas. A continuación, aplicaron algoritmos de clasificación automática para determinar los rasgos más comunes de los superventas. Ahora el «superventómetro» es capaz de predecir con una precisión del 80 % la probabilidad de que una novela nueva sea un éxito o un fracaso.

Así pues, según el «superventómetro», ¿cuáles son los principales factores que incrementan las posibilidades de que una nueva novela se venda como rosquillas? Ya es un buen comienzo que haya una protagonista joven y fuerte en dificultades (al estilo de Katniss Everdeen de «Los juegos del hambre» o de Lisbeth Salander de «Los hombres que no amaban a las mujeres»). Es mejor no hablar abiertamente de sexo, pero sí destacar cierta «proximidad humana». No se debe abusar de las exclamaciones, ni tampoco de los adjetivos y adverbios, pero resulta conveniente emplear el verbo «necesitar» a intervalos frecuentes. Y si el protagonista tiene mascota, mejor que sea un perro y no un gato. Se puede ser coloquial sin miedo: los lectores de los superventas prefieren un lenguaje informal, por lo que se recomienda el uso de las palabras «vale» y «pues». Por último, el título de los libros también influye, en relación a lo cual se recomienda utilizar un simple sustantivo (como en los éxitos «El jilguero» de Donna Tartt y «La isla» de Victoria Hislop).

El número uno según el algoritmo

Archers y Jockers esperaban con impaciencia averiguar qué novela de entre las miles procesadas sería la preferida del superventómetro. La novela agraciada fue «El círculo» de Dave Eggers, novela de suspense de 2013 que trata sobre una joven estudiante de posgrado que realiza unas prácticas en una poderosa empresa tecnológica que aspira a transformar subrepticiamente el mundo erradicando la noción de privacidad.

Concretamente, el superventómetro valoró positivamente el hecho de que la protagonista fuera mujer, que los verbos más usados fueran «necesitar» y «querer», y que los tres temas primordiales fueran la tecnología, el mundo laboral y la proximidad humana, siendo este último el tema más destacado entre todos los superventas analizados con el algoritmo. Efectivamente, «El círculo» alcanzó cifras de superventas y se mantuvo en puestos destacados de la clasificación de «The New York Times» durante muchas semanas.

Archer ha destacado la irónica coincidencia de que «El círculo» haya sido la novela elegida por su superventómetro, pues se trata de una distopía que alerta de los peligros que comportan los datos masivos y la progresiva invasión de la tecnología en todos los aspectos de la vida.

Archer y Jockers no tienen intención de comercializar su invención, pero es probable que a corto plazo los datos masivos influyan muy notablemente en la industria editorial. La perspectiva de una influencia creciente de esta clase de datos genera preocupación por la posibilidad de que se reduzca la diversidad de narrativas, a raíz del afán de los editores por obtener ganancias. Según Archer: «Hay quien teme que de esta forma homogeneicemos el mercado, pero eso no va a ocurrir. Lo que pretende el superventómetro es decir "eh, da una oportunidad a este nuevo autor con el que no te arriesgarías con tu presupuesto para adquisiciones"».

Fuente: Basado en noticias aparecidas en medios

Información relacionada

Países

  • Estados Unidos
Número de registro: 126366 / Última actualización el: 2016-09-29
Categoría: Tendencias científicas
Proveedor: ec